# 20200827 サブゼミ　効果検証入門（因果推論）

今回は**Post Treatment Bias**を扱う。Post Treatment Biasとは、処置が決まった後に決まる共変量（らしきもの）をモデルに含めた場合に処置効果の推定値に生じるバイアスのことである。

今回、サイトの来訪(visit)が問題となる共変量（らしきもの）である。visitはメールの配信という処置の後に決まる変数であり、visitを入れると**処置がたとえランダムに割り当てられていたとしても処置変数のパラメータの推定値にバイアスが生じることが知られている。**

In [1]:
#!-*-coding:utf-8-*-
import pandas as pd
import numpy as np
import statsmodels.api as sm

必要なライブラリ・モジュール群をインポート。`statsmodels`は、scipyのバージョンが古くないと使えないことがある。

今回は、scipyを一旦アンインストールして、scipy1.1.0をインストールすることで解決した。コマンドライン上の操作は、

`pip uninstall scipy`

`pip install scipy=1.1.0`

___

## データの準備

In [2]:
mail_df = pd.read_csv("./datas/Kevin_Hillstrom_MineThatData_E-MailAnalytics_DataMiningChallenge_2008.03.20 (1).csv")

pandasでデータセットをインポート。mail_dfオブジェクトに格納。

In [5]:
### 女性向けメールが配信されたデータを削除したデータを作成

male_df = mail_df[mail_df.segment != 'Womens E-Mail'].copy()# 女性向けメールが配信されたデータを削除

male_df["treatment"] = np.where(male_df.segment =="Mens E-Mail",1,0)

本の設定の通り、女性向けメールが配信されたレコードを削除するクエリを書く(segmentカラムの値がWomens E-mailであるものを削除)。
また、処置変数`treatment`を作成。ここでは、Numpyの`where`関数でクエリを書いている。

In [6]:
# バイアスのあるデータの作成(ここが本では明示的に書かれていなかった。1章のバイアスの作り方を適用)
sample_rules = (male_df.history > 300) | (male_df.recency < 6) | (male_df.channel == 'Multichannel')
biased_df = pd.concat([
    male_df[(sample_rules) & (male_df.treatment == 0)].sample(frac=0.5, random_state=1),
    male_df[(sample_rules) & (male_df.treatment == 1)],
    male_df[(~sample_rules) & (male_df.treatment == 0)],
    male_df[(~sample_rules) & (male_df.treatment == 1)].sample(frac=0.5, random_state=1)
], axis=0, ignore_index=True)

先週のサブゼミで推定値が本の結果と合わなかったのは、データセットに人工的なバイアスを発生させていなかったため。本では、第１章のデータでのバイアスの発生方法を第２章のデータセットにも適用しているようである。

___

## 処置変数とvisitの相関

In [11]:
#Zとvisitの相関
Y = biased_df[['treatment']]
X = pd.get_dummies(biased_df[['visit','recency','channel','history']],columns=['channel'],drop_first=True)#channelのダミー変数を作成。
X = sm.add_constant(X)#定数項を入れる
model = sm.OLS(Y,X)
results = model.fit()
table=results.summary().tables[1]
table

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.7153,0.011,63.968,0.000,0.693,0.737
visit,0.1509,0.008,19.820,0.000,0.136,0.166
recency,-0.0282,0.001,-35.621,0.000,-0.030,-0.027
history,0.0001,1.17e-05,9.705,0.000,9.06e-05,0.000
channel_Phone,-0.0708,0.009,-7.453,0.000,-0.089,-0.052
channel_Web,-0.0771,0.009,-8.131,0.000,-0.096,-0.059


ここでは
$$
Treatment = \beta_{0}+ \beta_{1}visit+ \beta_{2}recency+ \beta_{3}history+ \beta_{4}channel+u
$$

という線形回帰モデルのパラメータを求めている。visitの係数は0.1509なので処置変数とvisitの間には正の相関が認められるので、一見共変量としてモデルに含めて良さそうな気がする。

前回RCTのデータを用いて回帰分析した時のtreatmentの推定値は0.770だった。また、recency,history,channelの3つの共変量と処置変数treatmentでspendを回帰した結果、treatmentの係数は0.86程度になった。ここにvisitを共変量として追加して回帰すれば、treatmentの推定値はより0.770に近づく...？


ここでの技術的なポイントは、**channelをpandasの`get_dummies()`関数を用いてダミー変数化**している点である。同じ操作は`np.where()`を使ってchannelに含まれる3つのカテゴリのうち2つをダミー変数に変換してもできる。しかし、カテゴリ数が4,5,6...と増えたとき、これで一つずつ記述しているのでは辛いので、pandasにやってもらうこの方法の方がいいのかもしれない。`get_dummies()`関数の利用はむしろ前処理の際に使える技術として覚えた方がいいのかも。

___


## visitを共変量として回帰分析をすると...？

In [13]:
#visitを含めた重回帰分析
Y = biased_df[['spend']]
X = pd.get_dummies(biased_df[['treatment','visit','recency','channel','history']],columns=['channel'],drop_first=True)
X = sm.add_constant(X)
results = sm.OLS(Y,X).fit()
table  =results.summary().tables[1]
table

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-0.4057,0.382,-1.062,0.288,-1.155,0.343
treatment,0.2784,0.180,1.546,0.122,-0.075,0.631
visit,7.2368,0.246,29.368,0.000,6.754,7.720
recency,0.0090,0.026,0.346,0.729,-0.042,0.060
history,0.0005,0.000,1.316,0.188,-0.000,0.001
channel_Phone,0.0978,0.306,0.320,0.749,-0.502,0.697
channel_Web,0.1160,0.306,0.380,0.704,-0.483,0.715


visitを入れて回帰した結果、treatmentのパラメータの推定値は、むしろ0.770から離れた値になっている。共変量として良さそうに見えたvisitだったが、処置の後（処置の影響を受けて？）に決まる変数であるためにPost Treatment Biasを生じさせる。

結論として、**共変量として、YとZのどちらにも相関があるからといって何でもかんでも入れればいいというわけではない。**