Unbiased Offline Recommender Evaluation for Missing-Not-At-Random Implicit Feedback #5
Labels
2018
Recsys for MNAR
Recommender System for Missing-Not-At-Random Data
Recsys
ACM Recommender Systems Conference
0. 論文概要
Longqi Yang, Yin Cui, Yuan Xuan, Chenyang Wang, Serge Belongie, and Deborah Estrin. 2018. Unbiased Offline Recommender Evaluation for Missing-Not-At-Random Implicit Feedback. In Twelfth ACM Conference on Recom- mender Systems (RecSys’18)
** 図表は全て本論文からの引用です.
1. 要約
2. 背景
Implict Feedbackに基づいたRecommendationアルゴリズムは多く提案されており, それらの評価はA/Bテストがハイコストであることから, Offlineで行われることが多い.
これまで, Implicit RecにおけるOffline評価は, Missing-At-Random (MAR) を仮定した元で, 全てのログデータを等価に扱い評価値を計算するAOAが用いられてきた.
しかし, ほとんどの実データは, popularity biasやpresentation bias, interaction biasによりMissing-Not-At-Randomであると想定される. (実際実験パートで確認している.)
Explicit FeedbackにおけるMNAR環境下においてもUnbiasedなOffline評価指標は提案されているが, Implicit Feedbackに対応する手法は, 現在まで存在しない.
3. 手法
しかし, この値は現実には計算不可能である. 何故ならば, ポジティブなinteractionが起こる全てのユーザーとアイテムの組み合わせが観測されるわけではないからである. ここで, ユーザーuとアイテムiのpositiveなinteractionが観測されるか否かを表すbinary確率変数をO_{u, i}としておく.
これまでのImplicit Recの評価には, 以下のAOA evaluatorが用いられてきた. これは, 観測されているpositive interactionについて, 単純にcによる評価値を平均するものである.
しかし, 後に実験パートで確認するように, popularity biasやpresentation bias, interaction biasといったbiasによって, 全てのpositive interactionが一様に観測されるという仮定は非現実的である.
より現実的なO_{u, I} = 1となる確率 (propensity) がuやiに依存して変化するMNAR環境においては, AOAによる評価はbiasを持ってしまうことが示される.
ここで, 因果推論でよく用いられる (IPS: Inverse Propensity Scoring) の考え方を用いると, 以下のようなUnbiasedな評価指標を作ることができる. P_{u, i}がuとiについてのpropensity.
不偏性の証明:
しかし, 実際には分散を抑える目的で, 以下のSNIPSを用いると良いとされている.
以上の不偏性が成り立つのは, 真のpropensityがわかっているときのみである. しかし, 真のpropensityは一般に不明であり, なんらかの方法で推定してあげる必要がある. ここから, propensityを推定するための仮定のオンパレードになる. (この辺りが今後の研究の1つの焦点になるだろう.)
propensity推定のための仮定たち
(観測されないものも含めた全てのpositive interactionの数)
詳しくは, 論文を参照していただきたいが, これらの仮定の元で, データとアルゴリズムごとに仮定4でおいたべき乗分布のパラメータを推定する.
4. 実験
fig2は, 左からpositive interactionが多いアイテムから順に並んでおり, 縦軸がそのinteractionの数を表している. 横軸はlog-scaleなので, どのデータセットも大きなpopularity biasが存在することがわかる. 例えば, citeulikeだと100回以上のinteractionが観測されるアイテムは全体の1%程度.
fig3は, 4つのアルゴリズムで学習した際に, アイテムごとにレコメンドされる回数(全てのユーザーについてTop50のレコメンドに入る回数)をアイテムごとの観測回数の関数としてplotしたもの. これも横軸がlog-scaleになっていることから, 観測回数が多いアイテムほどたくさんレコメンドされる様子が見て取れ, presentation biasが存在することを示す.
1でも用いた3つのデータセットに対して, 4つのアルゴリズムの評価をofflineで推定.
全ての推定において, AOAが提案評価指標よりも大きな評価値を推定した. この結果から, AOAがアルゴリズムの性能を過大評価している可能性が示唆される.
Yahoo music datasetを使って提案評価指標の精度を検証. このデータセットはランダムな推薦により集められたテストデータを有するため, Offline評価指標の精度評価のbiasを評価することができる.
全てのアルゴリズムの評価に関して, 提案手法を使うことによりbiasの小さい評価が可能となっている. また, \gammaの推定値にロバストであることも確認され, propensityの推定誤差はある程度許容可能である.
5. コメント
初見時は関連論文とやっていることが変わらないと思ったが, Implicitだとデータの観測とユーザーの認知は同値
ではないため, propensityの推定がImplicit Recの方がより難しいという違いが大きいのではないかと感じた.
著者も書いているが, propensity推定のための仮定がとても多い. 今後この仮定が満たされない状況において, どれほど推定誤差が生じてしまうかは検証されるべき. (人工データなど使って)
6. 関連論文ピックアップ
Thorsten Joachims. 2016. Recommendations As Treatments: Debiasing Learning and Evaluation. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48 (ICML’16). 1670–1679.
The text was updated successfully, but these errors were encountered: