# 1. セレクションバイアスとRCT

やっていること
- 計量経済学や因果推論の基本用語を抑える
- 平均処置的効果はセレクションバイアスによって悪影響をうけることを確認する
- 有意差検定の基礎，限界を理解する
- 実データで有意差検定による効果検証を試してみる

- `効果`：ビジネスにおいて何らかのアクションが，売上などのビジネス上重要なKPIに与えた影響
- `介入`:何らかのアクションのこと
    - 商品やサービスのリニューアル
    - 別の広告キャンペーン
    - ポイントの配布やキャッシュバック
    - 競合他者の広告キャンペーン
- 潜在的な購買量
    - 介入をせずとも観測される売上
- 誤った比較
    1. 介入をしたグループ    
        1-2. 介入をした場合の売上     
        1-2. 介入をしなかった場合の売上
    2. 介入をしてないグループ
    - 本当に知りたいのは`1-1`と`1-2`．しかし，現実では`1-1`と`2`を単純比較してしまうことが多い
    - しかし，全く同じサンプルで同時期に介入を行なった場合とそうでない場合の売上のデータを得ることは不可能(**因果推論の根本問題**)
    - 後述するRCTでは，介入を無作為化する(ABテスト)

![pic](data/ch02-01.png)

- `バイアス`：データから得られた分析結果と本当の効果の乖離
- `セレクションバイアス`：そもそも比較しているグループの潜在的な傾向が違うことによって発生するバイアス

- 介入を行う層は介入をしない層に比べて潜在的な購買量が高いことが多い
    - 例えばマーケティングでクーポン付きメールを送る状況を考えると，メールの送信対象は以下のようなユーザであると考えられる．
        - 過去の購買量が多い
        - 最近購買を行なったなどのユーザ
        - クーポンが適応されている商品と同じ商品を過去に購買したユーザ 
    - この場合メール自体に大きな効果がなくても，潜在的な購買量の差によってあたかもメールマーケティングに絶大な効果があるように見えてしまう
    - バイアスのある効果検証では以下のような負の連鎖が発生する
        - 施策を始める
        - バイアスのある評価を行う
        - バイアスのある評価を元に施策を改善する
        - 次の施策の設計を行う
        - 次の施策を実行する
    - すると，**本当にKPIを改善しているかわからないものにコストを支払い続けてしまったり，蓄積される知見の多くがセレクションバイアスの作り方になってしまう!**
- RCT(Randomized Controlled Trial)
    - RCTは介入を行う層を全くのランダムで決定する
    - すると潜在的な購買量の差はゼロになるので，セレクションバイアスはなくなり正しく効果を測定できる
    - ABテストなどと呼ばれる
    - RCTの実行にはコストがかかるため，実施が難しいことが多い
    - **計量経済学や因果推論は，理想的にはRCTでデータをデザインして分析したいが，それが不可能な状態において，RCTの結果をするような方法論を提供する**

効果検証の目的を整理すると
- ｢得られたデータから母集団における介入の効果を推定すること｣


あるサンプル$i$に介入を行なった場合を以下で定義
$$
Z_i = 
\left\{
\begin{array}{ll}
1 & (介入が行われた場合) \\
0 & (介入が行われなかった場合)
\end{array}
\right.
$$
次にユーザ$i$の売上を以下で定義
$$
Y_i = 
\left\{
\begin{array}{ll}
Y_i^{(1)} & (Z_i = 1) \\
Y_i^{(0)} & (Z_i = 0)
\end{array}
\right.
$$
これは以下のようにも表現できる
$$
Y_i = Y_i^{(0)} (1-Z_i)+ Y_i^{(1)} Z_i
$$
- このとき，$Y_i^{(0)}$と$Y_i^{(1)}$は他方が観測されると，他方は観測されない(同時に観測はできない，因果推論の根本問題)
- 観測されない側のことを**ポテンシャルワウとカム**と呼び，実現値とポテンシャルアウトカムの差に介入の効果があると考えることを**ポテンシャルアウトカムフレームワーク**と呼ぶ

ATEによる効果の比較がセレクションバイアスによって悪影響を受けていることの確認．    
平均を比較するだけの検証方法はセレクションバイアスを含む結果となり，それを元にした意思決定を行うことはビジネス上大きなリスクになる可能性がある．これはマーケティングなどで見られる典型的なセレクションバイアスの問題である．

以下のような疑似データで考える

In [2]:
import pandas as pd

In [9]:
smpl = pd.DataFrame({
    'i': list(range(1,11)),
    'Y': [300,600,600,300,300,600,600,300,600,300],
    'Y^0':[300,500,500,300,300,500,500,300,500,300],
    'Y^1':[400,600,600,400,400,600,600,400,600,400],
    'Z': [0,1,1,0,0,1,1,0,1,0],
})
smpl['tau'] = smpl['Y^1'] - smpl['Y^0'] # 効果は100になるように疑似データを作成している
display(smpl)

Unnamed: 0,i,Y,Y^0,Y^1,Z,tau
0,1,300,300,400,0,100
1,2,600,500,600,1,100
2,3,600,500,600,1,100
3,4,300,300,400,0,100
4,5,300,300,400,0,100
5,6,600,500,600,1,100
6,7,600,500,600,1,100
7,8,300,300,400,0,100
8,9,600,500,600,1,100
9,10,300,300,400,0,100


介入の効果を表す値は以下の式で表すことが可能
$$
\tau = Y^{(1)} - Y^{(0)}
$$
しかし，分析者は$Y$, $Z$のみが観測可能であるため，直接計算をして$\tau$を求めることはできない．

よって，平均的な効果を考える
$$
\tau = \mathbf{E}(Y^{(1)}) - \mathbf{E}(Y^{(0)})
$$
興味のある介入の効果$\tau$とは，母集団における介入を受けた場合の売上と，介入を受けなかった場合の売上の平均の差ということになる．**(平均処置効果(Average Treatment Effect; ATE))**
    
平均的な効果を比較してみる．効果の推定値を$\tau_{naive}$と呼ぶ．
$$
\tau_{naive} = \frac{1}{\sum_{i=1}^{N}Z_i}\sum_{i=1}^{N} Y_i Z_i -  \frac{1}{\sum_{i=1}^{N}(1-Z_i)}\sum_{i=1}^{N} Y_i(1-Z_i)
$$
実際に計算してみると

In [20]:
tmp = smpl.groupby('Z').agg({'Y': ['size', 'sum']})
tmp.columns = tmp.columns.droplevel(0)
tmp['mean'] = tmp['sum'] / tmp['size']
tau_naive = tmp['mean'].iloc[1] - tmp['mean'].iloc[0]
print(tau_naive)

300.0


ATEによる効果は`300`    
しかし，本来は100しかない効果がなぜ300と過剰に測定されてしまうのか？

$\tau_{naive}$を条件付き期待値を用いて書き直すと
$$
\tau_{naive} = \mathbf{E}[Y^{(1}|Z=1] - \mathbf{E}[Y^{(0}|Z=0]
$$
この式を更に分解する
$$
\begin{align}
\tau_{naive} &= \mathbf{E}[Y^{(1}|Z=1] - \mathbf{E}[Y^{(0}|Z=0] \\
&= \mathbf{E}[Y^{(1)}|Z=1] - \mathbf{E}[Y^{(0)}|Z=1] + \mathbf{E}[Y^{(0)}|Z=1] -  \mathbf{E}[Y^{(0)}|Z=0] \\
&=  \mathbf{E}[Y^{(1)}-Y^{(0)}|Z=1] + \mathbf{E}[Y^{(0)}|Z=1] -  \mathbf{E}[Y^{(0)}|Z=0] 
\end{align}
$$
$\mathbf{E}[Y^{(1)}-Y^{(0)}|Z=1]$は，$Z_i=1$に成るようなサンプルにおける効果の期待値を意味する．Zの値と効果の大きさには関連性が無いと仮定できて，
$$
\mathbf{E}[Y^{(1)}-Y^{(0)}|Z=1] = \mathbf{E}[Y^{(1)} - Y^{(0)}]
$$
ということになり，本当の介入による効果を示している．    
後半の，$\mathbf{E}[Y^{(0)}|Z=1] -  \mathbf{E}[Y^{(0)}|Z=0]$は，介入が行われなかった場合の結果の差を，実際に介入が行われたグループとそうでないグループでとったもの．つまり，これがセレクションバイアスに該当する．つまり，潜在的な購買量の比較項．**RCTをするとこの部分は0になる**

有意差検定について

- 介入の効果の推定結果が偶然得られた可能性について検証
    - この場合偶然得られた可能性とは，おおまかには母集団上では効果がまったくないのにも関わらず，得られた手元のデータではあたかも効果があるような結果が得られているという可能性を指す．
- 分析結果において，介入の効果が偶然得られたものであるかを評価するためには，メールを配信したときの平均と配信しなかったときの平均差が0になるかを検証する必要がある
- このような検証では**t検定**がよく利用される．十分なサンプルサイズがある場合，手元に得られたデータにおける平均の分布はもともとのデータがどんな分布であれ近似できるという中心極限定理から得られる結論を根拠に行われる．
- つまり，効果を示すグループ間の平均の差は正規分布に近似するため，この差が本来0であるかはt検定を用いて評価すれば良い

t検定のプロセス
- 標準語誤差の算出
- 効果の推定値と標準誤差を使ってt値を算出
- t値からp値の算出
- p値と有意水準を比較
    - p値が低いなら，差は統計的に有意
    - p値が高いなら，効果が0であるケースを否定しきれない

※
- 分析の不確実性を評価することは非常に複雑な作業
- 有意差検定は評価を簡略化して考えるためのルールであり，絶対的な判断基準ではない
- 実際，RCTを行なっていないデータで有意差検定を行う場合，セレクションバイアスが大きいと有意差検定の結果は有意になりやすいことがある．

実データによる演習：ECサイトのユーザに対してRCTを適用したメールマーケティングを行なったデータ

In [None]:
import pandas as pd

pd.read_csv('data/Kevin_Hillstrom_MineThatData_E-MailAnalytics_DataMiningChallenge_2008.03.20.csv').head()