Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Policy Evaluation and Optimization with Continuous Treatments #9

Open
usaito opened this issue Jan 30, 2019 · 0 comments
Open

Policy Evaluation and Optimization with Continuous Treatments #9

usaito opened this issue Jan 30, 2019 · 0 comments
Labels
2018 AISTATS International Conference on Artifi- cial Intelligence and Statistics Treatment Policy Optimization

Comments

@usaito
Copy link
Owner

usaito commented Jan 30, 2019

0. 論文概要

Nathan Kallus and Angela Zhou. Policy Evaluation and Optimization with Continuous Treatments.. Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS) 2018, Lanzarote, Spain. JMLR: W&CP volume 7X.

1. 要約

  • 介入が連続変数である場合の介入方策最適化問題を定式化
  • 上記問題に対して, kernel関数を用いたpolicy valueの推定量を提案. その性質を理論的に分析
  • warfarinの投薬量最適化実験では、従来の離散的な介入を取り扱うbaselineを上回る性能を発揮

2. 背景

  • 従来の介入方策最適化は, 介入が離散変数である場合のみが取り扱われてきた
  • 介入が連続変数であることを許す場合, 従来主流だったIPWやDRなどの重点サンプリングをベースにしたアプローチをそのまま適用することはできないため工夫が必要

3. 手法

Notation

本論文では以下のNotationを用いています.

2019-02-02 16 23 01

2019-02-02 16 23 05

Off-Policy Continuous Estimator

介入が離散変数である場合のOff-Policy Estimatorとして最も標準的なのはIPW推定量である.

2019-02-02 16 26 13

しかし, 介入が連続変数である場合を考えた時, 方策τは連続確率分布となるため, 上記の推定量を用いるとindicator functionが全て0になってしまうという問題が生じる.

この問題に対して本論文は, non-parametric regressionなどで用いられるkernel関数を適用することを考える.
(kernel関数については, nadaraya watson estimatorなどと調べると色々出てきます.)

2019-02-02 16 26 17

ここでhはバンド幅である.kernel関数を適用し介入が連続変数である場合にも対応した推定量の基本形は以下の通り. つまり, あるpolicyを評価するときに, そのpolicyと近い介入を受けたログ中のデータの情報を重視してpolicy valueを推定していると解釈できる. さらにこれにSelf-NormalizeやDoubly Robustを適用することも可能である.

2019-02-02 16 26 28

Theoretical Analysis

まず, 基本形の推定量の真のpolicy valueに対するMSEを導出し, そのMSEを最小化するバンド幅を求める.

2019-02-02 16 26 37

次に, 基本形の推定量は真のpolicy valueに確率収束する(一致性).

2019-02-02 16 26 43

これらの結果から, 基本形の推定量はpolicy valueの推定量としてある程度妥当な性質を有していると言える.
論文では, policy valueに対する推定精度だけではなく, 推定量を最大化して得られる新たなpolicyの汎化性能についてもrademacher complexityを用いて分析している.

4. 実験

人工データ実験1

人工データを使ってOff-Policy Evaluationを行う. Baselineは, Direct Method (DM), 適当に介入を離散化した上で既存のOff-Policy Evaluationを行うdiscretized OPE. continuous OPEにはSelf-Normalizedを用いた.

介入割り当てにConfoundingなし.
2019-02-02 16 57 31

介入割り当てにConfoundingあり.
2019-02-02 16 57 36

人工データ実験2

先ほどとは異なる人工データを使って, Policy Optimizationを行い, 目的変数を最小化する性能を評価した.

2019-02-02 16 57 42

実データ実験

Warfarin case studyというデータを使って, Warfarinという薬の投薬量を最適化する問題を解く. ここでは, INRという目的変数を最小化することを目指すが, これはunavailableなので人工的にoutcomeの値を生成した.

2019-02-02 16 57 47

総じて差があまりわからない... もう少しextensiveな人工データによる評価があると嬉しかった.

5. コメント

  • continuous treatmentに対して, Kernel関数を適用するというアイデアにはなるほどと思った. 理論分析も既存のnon-parametric regression界隈のものと整合しており, 納得できる.
  • 一方で, 人工データによる実験をもう少しextensiveにやってほしかった. どういう状況でcontinuous estimatorを使うことで比較的精度よく推定が可能なのか知りたかった.

6. 関連論文ピックアップ

Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning.
In International Conference on Machine Learning (ICML), 2011.

@usaito usaito added 2018 Treatment Policy Optimization AISTATS International Conference on Artifi- cial Intelligence and Statistics labels Jan 30, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
2018 AISTATS International Conference on Artifi- cial Intelligence and Statistics Treatment Policy Optimization
Projects
None yet
Development

No branches or pull requests

1 participant