# Полноценный tutorial по Policyscope

В этом ноутбуке показано, как на синтетических данных сравнить две рекомендательные политики без онлайн A/B‑теста. Мы:
1. сгенерируем пользователей и логи политики A с корректными пропенсити;
2. оценим политику B методами Replay, IPS, SNIPS, DM и Doubly Robust;
3. построим доверительные интервалы через бутстрэп;
4. сравним оффлайн‑оценки с истинным эффектом (оракулом).

## Основные термины

**Пропенсити** (propensity) — вероятность того, что политика A выберет действие `a` в контексте `x`: \(\pi_A(a|x)\). Логи должны содержать эту вероятность для каждого показанного действия.

**Нулевой пропенсити** — ситуация, когда \(\pi_A(a|x)=0\); политика A никогда не выбирает действие `a` при таком `x`. Если политика B хочет выдать это действие, его эффект нельзя оценить на имеющихся данных.

**Стохастическая политика** — политика, которая выбирает действия случайно, согласно распределению вероятностей. Примеры: `epsilon_greedy`, `softmax`. Противоположность — детерминированная политика, всегда отдающая одно действие.

**Value (ценность) политики** — ожидаемое значение целевой метрики при использовании политики. Например, средняя вероятность отклика или средний CLTV при показе действий по этой политике.


## Формат входных логов

Для off-policy оценки нужны логи политики **A** со следующими колонками:
- `user_id` — идентификатор пользователя;
- `a_A` — действие (предложение), показанное A;
- `propensity_A` — вероятность выбрать это действие A;
- `accept` и/или `cltv` — отклик и итоговая ценность;
- признаки пользователя, участвующие в модели.

Важно: `propensity_A` должна быть в диапазоне `(0,1]`; нули делают эффект политики B неидентифицируемым.

## Алгоритмы и их допущения

- **Replay** — использует только совпадения между A и B; требует большого перекрытия действий.
- **IPS** — корректен при известных пропенсити `π_A(a|x)` и `π_B(a|x)`; веса могут иметь большую дисперсию.
- **SNIPS** — нормализует веса IPS, уменьшая дисперсию, но остаётся чувствителен к редким событиям.
- **Direct Method (DM)** — строит модель исхода `μ(x,a)`; смещён, если модель неточна вне области наблюдений.
- **Doubly Robust (DR)** — сочетает DM и IPS; достаточно корректности хотя бы одной из частей.

См. подробности в работах [Dudík et al., 2011](https://arxiv.org/abs/1103.4601) и [Joachims et al., 2017](https://dl.acm.org/doi/10.1145/3018661.3018699).

## 1. Генерация данных

Среда имитирует выдачу банковских предложений. Политика A стохастическая (ε‑greedy), поэтому в логах есть вероятность выбранного действия.

In [1]:
import sys, os
sys.path.append("../src")

from policyscope.synthetic import SynthConfig, SyntheticRecommenderEnv
from policyscope.policies import make_policy
from policyscope.estimators import (
    train_mu_hat, prepare_piB_taken, replay_value, ips_value, snips_value, dm_value, dr_value
)
from policyscope.bootstrap import paired_bootstrap_ci
import pandas as pd

cfg = SynthConfig(n_users=2000, seed=0)
env = SyntheticRecommenderEnv(cfg)
users = env.sample_users()
users.head()

Unnamed: 0,user_id,loyal,age,risk,income,region,age_z,risk_z,income_z
0,0,0,39,0.164427,33847.243699,2,-0.083333,-1.342291,-0.151654
1,1,1,68,0.79497,28464.133287,1,2.333333,1.179882,-0.49675
2,2,1,51,0.173588,106405.425932,1,0.916667,-1.305647,2.130351
3,3,1,21,0.460746,23807.909876,0,-1.583333,-0.157015,-0.852632
4,4,0,58,0.129342,22354.664095,2,1.5,-1.482632,-0.978114


## 2. Политики A и B

- **A**: ε‑greedy (ε=0.15) на скрытых скоринговых функциях.
- **B**: softmax (τ=0.7) на тех же скорингах.

Сгенерируем логи A и посмотрим первые строки.

In [2]:

policyA = make_policy('epsilon_greedy', seed=1, epsilon=0.15)
policyB = make_policy('softmax', seed=2, tau=0.7)
logsA = env.simulate_logs_A(policyA, users)
logsA.head()


Unnamed: 0,user_id,loyal,age,risk,income,region,age_z,risk_z,income_z,a_A,propensity_A,accept,cltv
0,0,0,39,0.164427,33847.243699,2,-0.083333,-1.342291,-0.151654,0,0.8875,1,534.149918
1,1,1,68,0.79497,28464.133287,1,2.333333,1.179882,-0.49675,1,0.8875,0,605.271806
2,2,1,51,0.173588,106405.425932,1,0.916667,-1.305647,2.130351,0,0.8875,1,1552.634426
3,3,1,21,0.460746,23807.909876,0,-1.583333,-0.157015,-0.852632,2,0.8875,1,751.644903
4,4,0,58,0.129342,22354.664095,2,1.5,-1.482632,-0.978114,0,0.8875,1,470.883121


## 3. Оценка value(A) и value(B)

Метрики:
- **accept** — отклик пользователя (0/1);
- **cltv** — изменённая ценность за горизонт 90 дней.

Рассчитаем V(A) и оценки V(B) разными методами.

In [3]:

vA_accept = logsA['accept'].mean()
vA_cltv = logsA['cltv'].mean()

piB_taken = prepare_piB_taken(logsA, policyB)
mu_accept = train_mu_hat(logsA, target='accept')
mu_cltv = train_mu_hat(logsA, target='cltv')

res = []
# Replay
res.append(('Replay',
             replay_value(logsA, policyB.action_argmax(users), 'accept'),
             replay_value(logsA, policyB.action_argmax(users), 'cltv')))
# IPS
res_ip_accept, ess_ip_a, clip_ip_a = ips_value(logsA, piB_taken, 'accept', weight_clip=20)
res_ip_cltv, ess_ip_c, clip_ip_c = ips_value(logsA, piB_taken, 'cltv', weight_clip=20)
res.append(('IPS', res_ip_accept, res_ip_cltv))
# SNIPS
res_sn_accept, ess_sn_a, clip_sn_a = snips_value(logsA, piB_taken, 'accept', weight_clip=20)
res_sn_cltv, ess_sn_c, clip_sn_c = snips_value(logsA, piB_taken, 'cltv', weight_clip=20)
res.append(('SNIPS', res_sn_accept, res_sn_cltv))
# DM
res.append(('DM', dm_value(logsA, policyB, mu_accept, 'accept'), dm_value(logsA, policyB, mu_cltv, 'cltv')))
# DR
res_dr_accept, ess_dr_a, clip_dr_a = dr_value(logsA, policyB, mu_accept, 'accept', weight_clip=20)
res_dr_cltv, ess_dr_c, clip_dr_c = dr_value(logsA, policyB, mu_cltv, 'cltv', weight_clip=20)
res.append(('DR', res_dr_accept, res_dr_cltv))

pd.DataFrame(res, columns=['method','V_B_accept','V_B_cltv'])


Unnamed: 0,method,V_B_accept,V_B_cltv
0,Replay,0.522857,716.402723
1,IPS,0.441777,612.060087
2,SNIPS,0.478821,663.382246
3,DM,0.491499,679.777741
4,DR,0.48147,674.928823


## 4. Доверительные интервалы для DR

Используем кластерный бутстрэп по пользователям, чтобы получить 95% доверительные интервалы для разности ценностей (ATE).

In [4]:

def estimator_pair_accept(df):
    mu = train_mu_hat(df, 'accept')
    vA = df['accept'].mean()
    vB, _, _ = dr_value(df, policyB, mu, 'accept', weight_clip=20)
    return vA, vB, vB - vA

def estimator_pair_cltv(df):
    mu = train_mu_hat(df, 'cltv')
    vA = df['cltv'].mean()
    vB, _, _ = dr_value(df, policyB, mu, 'cltv', weight_clip=20)
    return vA, vB, vB - vA

ci_accept = paired_bootstrap_ci(logsA, estimator_pair_accept)
ci_cltv = paired_bootstrap_ci(logsA, estimator_pair_cltv)
ci_accept, ci_cltv


({'V_A': np.float64(0.5135),
  'V_A_CI': (0.4986213279153681, 0.5293527670743284),
  'V_B': 0.48146966174506906,
  'V_B_CI': (0.4459537202535492, 0.5171078060588417),
  'Delta': np.float64(-0.0320303382549309),
  'Delta_CI': (-0.06477892996017516, 0.00018136549190642356),
  'n_boot': 300},
 {'V_A': np.float64(687.670207586939),
  'V_A_CI': (674.8326503921056, 698.6395015882501),
  'V_B': 674.928823485076,
  'V_B_CI': (660.0687294091315, 690.4445440723413),
  'Delta': np.float64(-12.741384101862991),
  'Delta_CI': (-23.18077557141469, -1.5732426661529675),
  'n_boot': 300})

## 5. Сравнение с "Оракулом"

Так как мы знаем генеративную модель, можно вычислить истинные ожидания V(A) и V(B) и проверить точность OPE.

In [5]:
oracle_A_accept = env.oracle_value(policyA, users, metric="accept")
oracle_B_accept = env.oracle_value(policyB, users, metric="accept")
oracle_A_cltv = env.oracle_value(policyA, users, metric="cltv")
oracle_B_cltv = env.oracle_value(policyB, users, metric="cltv")

# DR estimates
DR_V_B_accept = res_dr_accept
DR_V_B_cltv = res_dr_cltv
DR_Delta_accept = res_dr_accept - vA_accept
DR_Delta_cltv = res_dr_cltv - vA_cltv

oracle_df = pd.DataFrame({
    "metric": ["accept", "cltv"],
    "V_A_true": [oracle_A_accept, oracle_A_cltv],
    "V_B_true": [oracle_B_accept, oracle_B_cltv],
    "Delta_true": [oracle_B_accept - oracle_A_accept, oracle_B_cltv - oracle_A_cltv],
    "DR_V_B": [DR_V_B_accept, DR_V_B_cltv],
    "DR_Delta": [DR_Delta_accept, DR_Delta_cltv],
    "abs_error_V_B": [abs(DR_V_B_accept - oracle_B_accept), abs(DR_V_B_cltv - oracle_B_cltv)],
    "abs_error_Delta": [abs(DR_Delta_accept - (oracle_B_accept - oracle_A_accept)),
                         abs(DR_Delta_cltv - (oracle_B_cltv - oracle_A_cltv))]
})
oracle_df

Unnamed: 0,metric,V_A_true,V_B_true,Delta_true,DR_V_B,DR_Delta,abs_error_V_B,abs_error_Delta
0,accept,0.5405,0.5145,-0.026,0.48147,-0.03203,0.03303,0.00603
1,cltv,696.39775,680.141577,-16.256173,674.928823,-12.741384,5.212753,3.514789


### Таблица сравнения
Столбцы:
- **V_A_true**, **V_B_true** — истинные средние значения метрики под политиками A и B.
- **Delta_true** — истинная разница V_B_true - V_A_true.
- **DR_V_B** — оценка V(B) методом Doubly Robust.
- **DR_Delta** — оценка разницы V(B)-V(A) методом DR.
- **abs_error_V_B**, **abs_error_Delta** — абсолютные ошибки оценок относительно истины.


## 6. Вывод

- В синтетике политика **B** уступает A: DR-оценка разницы совпадает по знаку с истинной дельтой.
- По отклику и CLTV абсолютная ошибка DR-аппроксимации невелика (см. таблицу выше).
- Это демонстрирует, что при корректных пропенсити и перекрытии действий метод DR может заменить online A/B для предварительных оценок.
