## Implicit feedbackを想定し、バイアスを考慮した推薦　　
### データが増えるとその分どのくらいバイアスに気を使わないといけないのか調査
人気順推薦から生まれるランキングバイアスパラメータを特定し、IPS推定量とNaive推定量を比較  
IPS推定量の分散が大きければ、ロバスト推定量を使用したいところ

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
from train import train
loader = train(
    train_policy="random",
    test_policy="feature",
    train_pow_true=None,
    test_pow_true=None
)
map_7, profile = loader.ranking_train()
print(f'ユーザプロファイル: {round(profile,2)}')
print('-----------------------------------')
print(f'MAP@7: {round(map_7,2)}')

クリック率: 0.41714285714285715
クリック率: 0.7057142857142857
ユーザプロファイル: 3.71
-----------------------------------
MAP@7: 0.14


データ数が少ないのでポリシーの影響はあまりなさそう

In [None]:
# パラメータごとの複数回施行平均値をとってみる

pow_true = [None,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]

for p in pow_true:
    sum_map = []
    user_profile = []
    for i in range(20):
        loader = train(
            train_policy="random",
            test_policy="random",
            train_pow_true=p,
            test_pow_true=p
        )
            
        map_7, profile = loader.ranking_train()
        sum_map.append(map_7)
        user_profile.append(profile)
        
    mean_map = np.mean(sum_map)
    mean_profile = np.nanmean(user_profile)
    print(f"train_policy: random")
    print(f"test_policy: random")
    print(f'pow_true: {p} のとき、')
    print(f"ユーザプロファイル: {round(mean_profile,2)}")
    print(f'MAP@7: {round(mean_map,2)}')
    print('-----------------------------------')

クリック率: 0.4
クリック率: 0.39714285714285713
クリック率: 0.38
クリック率: 0.3942857142857143
クリック率: 0.3142857142857143
クリック率: 0.4142857142857143
クリック率: 0.32285714285714284
クリック率: 0.3742857142857143
クリック率: 0.35714285714285715
クリック率: 0.39714285714285713
クリック率: 0.38
クリック率: 0.4857142857142857
クリック率: 0.41714285714285715
クリック率: 0.4142857142857143
クリック率: 0.38
クリック率: 0.39714285714285713
クリック率: 0.41714285714285715
クリック率: 0.41714285714285715
クリック率: 0.3942857142857143
クリック率: 0.4085714285714286
クリック率: 0.44857142857142857
クリック率: 0.3914285714285714
クリック率: 0.3942857142857143
クリック率: 0.43714285714285717
クリック率: 0.3742857142857143
クリック率: 0.44
クリック率: 0.36857142857142855
クリック率: 0.43142857142857144
クリック率: 0.35714285714285715
クリック率: 0.36
クリック率: 0.4142857142857143
クリック率: 0.4257142857142857
クリック率: 0.38857142857142857
クリック率: 0.4514285714285714
クリック率: 0.4257142857142857
クリック率: 0.4085714285714286
クリック率: 0.38
クリック率: 0.40285714285714286
クリック率: 0.38857142857142857
クリック率: 0.3742857142857143
train_policy: random
test_policy: random
po

ポリシーの影響はないが、ポジションバイアスが大きくなると、著しくmapの値が下る

# 特徴量の説明
feature:  ユーザーのクリックを決める特徴量(5に近いとクリックしやすい)  
populality:  一ヶ月ごとの人気度を表す特徴量(5に近いと推薦されやすい。人気順の推薦を想定)  
また、train, testは7:3

ポジションバイアスはE[O(u,i)]としpow_trueパラメータを0.5とする　　　　
C(u,i,k) = O(u,i)*R(u,i)　　　
E[C(u,i,k)] = THETA(u,i)*r(u,i)


In [None]:
# r(u,i)をfeatureとし、0-1スケールに変換。featureはあくまで特徴量なので、
#誤クリックを加えることで過学習を防ぐ

In [None]:
np.random.binomial(n=1,p=0.7)

In [None]:
f = np.array([0.9, 0.7, 0.6, 0.7, 0.1])
t = np.array([1.0,1.0, 1.0, 1.0, 1.0])
click_p = f*t
np.random.binomial(n=1,p=click_p)