In [241]:
# 乱数シードの設定
import numpy as np
import random
import pandas as pd

np.random.seed(1234)
random.seed(1234)

In [242]:
# ライブラリと関数の設定
# 標準正規分布生成
from numpy.random import *
# グラフの描画
import matplotlib.pyplot as plt
%matplotlib inline
# 正規化関数
import scipy.stats
# シグモイド関数
from scipy.special import expit


## 回帰分析による因果推論

### 式展開
TVCM閲覧の有無が商品購入にどの程度影響を与えるか  
性別と年齢を交絡因子として考える。  
  
TVCMの閲覧：$Z$、性別$x_{1}$、年齢$x_{2}$、購入量を$Y$とすると以下の式が得られる。  

$$
Y^i_{1} = f_{1}(Z^i, x^i_{1}, x^1_{2})\\
Y^i_{0} = f_{0}(Z^i, x^i_{1}, x^1_{2})
$$

これでは１つの式で表現できていないので１つの式になるように書き直していく  

$$
Y^i_{1} = b_{z1}Z^i_{1} + b_{1}x^i_{1} + b_{2}x^i_{2} + b_{0} = b_{z} * 1 + b_{1}x^i_{1} + b_{2}x^i_{2} + b_{0}\\
Y^i_{0} = b_{z0}Z^i_{0} + b_{1}x^i_{1} + b_{2}x^i_{2} + b_{0} = b_{z} * 0 + b_{1}x^i_{1} + b_{2}x^i_{2} + b_{0} 
$$

この式において、$Z$は0か１の2値である.$b_{z0}$にかかる$Z^i_{0}$が0であるためこの項は0となる。  
よって以下の式にまとめることができる。  

$$
Y^i = b_{z}Z^i + b_{1}x^i_{1} + b_{2}x^i_{2} + b_{0}
$$


このモデルを用いて、データから$b_{z}$,$b_{0}$,$b_{1}$,$b_{2}$をそれぞれ求める

利用するシグモイド関数は
$$
sigmood(x) = \frac{1}{1+exp(-ax+b)}
$$
であり、$a = 0.1$、$b=0$としている。

In [243]:
num = 400
x_1 = randint(15, 76, num) # 15~75の整数値を200個ランダムに生成
x_2 = randint(0, 2, num) # 0,1の整数値を200個ランダムに生成
e_z = randn(num) # 誤差項

z_base = x_1 + (1 - x_2) * 10 - 40 + 5*e_z # TVCMを見る確率の線形回帰部分
sig_coef_a = 0.1 # シグモイド関数の傾き係数
sig_coef_b = 0 # シグモイド関数の定数係数
z_prob = expit(sig_coef_a * z_base + sig_coef_b)

In [244]:
Z = np.array([])

for i in range(num): # 0,1をそれぞれ 1-z_prob、z_probの確率で取得
    Z_i = np.random.choice(2, size = 1, p = [1 - z_prob[i], z_prob[i]])[0]
    Z = np.append(Z, Z_i)

購入量は以下の数式で決まると仮定して因果推論を実装してみる
$$
Y^i = -x_{1} + 30x_{2} + 10Z^i + 80 + noise^i
$$

In [245]:
e_y = randn(num)
Y = -x_1 + 30*x_2 + 10*Z + 80 + e_y

In [246]:
# データをまとめる
df = pd.DataFrame({'age':x_1,'gender':x_2, 'TVCM':Z, 'amount':Y})
df.head()

Unnamed: 0,age,gender,TVCM,amount
0,62,0,1.0,27.511988
1,34,0,1.0,56.63737
2,53,1,1.0,65.110496
3,68,1,1.0,50.278149
4,27,0,1.0,62.509756


In [247]:
# TVCM視聴有無で平均を調べる
print(df[df['TVCM'] == 1.0].mean())
print(df[df['TVCM'] == 0.0].mean())

age       54.314286
gender     0.485714
TVCM       1.000000
amount    50.368168
dtype: float64
age       33.612903
gender     0.619355
TVCM       0.000000
amount    64.878601
dtype: float64


In [248]:
# 因果推論の実装
from sklearn.linear_model import LinearRegression

In [249]:
X = df[['age','gender','TVCM']]
y = df['amount']

reg = LinearRegression().fit(X,y)
print('係数',reg.coef_)

係数 [-0.99961684 29.95780741 10.18659555]


## IPTW

変数Zを値zになるように介入した時に、変数Yは値yとなる確率は  
(変数Zが値zかつ変数Xが値xのもとで、変数Yが値yとなる確率) * (変数Xが値xとなる確率)の変数Xがとりうる全パターンを足したもの。  
つまり

$$
P(Y=y|do(Z=z)) = \sum_{x}P(Y=y|X=x,Z=z)
$$

調整化公式の形になる。ただしXの全組み合わせを計算するのは面倒なので１つの項にする  
同時確率を条件付き確率の交換式を変形し

$$
P(X_{2}=x_{2}|X_{1}=x_{1}) = \frac{P(X_{2},X_{1})}{P(X_{1}=x_{1})}
$$

となる。これを利用して変数Zの条件付き確率を同時確率の変換すると

$$
P(Y=y|do(Z=z)) = \sum_{x}\frac{P(Y=y,Z=z,X=x)}{P(Z=z|X=x)} = \sum_{x}\frac{P(x,y,z)}{P(z|x)}
$$

となる。
分子は各変数の同時確率なので、とあるサンプルの割合になる。  
分母は変数Xがxの元で変数Zがzの確率となる。これを$\underline{\textbf{傾向スコア}}$と呼ぶ。

### 傾向スコアの実装
あるiさんのTVCMを見る確率$Z^i$は

$$
Z^i_{prob} = sigmoid[x_{1} + (1 - x_{2}) * 10 - 40 + noise^i)]
$$

で作成している。先ほど$\alpha = 0.1$で計算していたので、傾向スコアをロジスティック回帰で求めると

$$
\hat{Z^i}_{prob} = sigmoid\{\beta_{1}x_{1} + \beta_{2}x_{2}+\alpha\}
$$

となり、係数である$\beta_{1}、\beta_{2}、\alpha$をデータから求めることになる

なお正解は
$$
\begin{align*}
&x_{1} + (1 - x_{2}) * 10 - 40\\
&= x_{1} - 10*x_{2} + 10 - 40\\
&= x_{1} - 10*x_{2} - 30\\
\end{align*}
$$

これに$\alpha = 0.1$を掛けたものになるので  
$\beta_{1} = 0.1、\beta_{2} = -1、\alpha = -3$  
となる。

In [250]:
# ロジスティック回帰による傾向スコア --> 年齢と性別で傾向スコアを算出
from sklearn.linear_model import LogisticRegression

X = df[['age', 'gender']]
Z = df['TVCM']

reg = LogisticRegression(solver = 'lbfgs').fit(X,Z)

print('β:', reg.coef_)
print('α:', reg.intercept_)
#おおむね正しい答えが得られた

β: [[ 0.08674651 -0.8322353 ]]
α: [-2.87230558]


In [251]:
# それぞれの人の傾向スコアを計算する
Z_pre = reg.predict_proba(X)
print('予測:2列目が傾向スコア')
print(Z_pre[:5])
print('正解')
print(Z[:5])

予測:2列目が傾向スコア
[[0.07544014 0.92455986]
 [0.48074056 0.51925944]
 [0.29048609 0.70951391]
 [0.10027055 0.89972945]
 [0.62951802 0.37048198]]
正解
0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
Name: TVCM, dtype: float64


#### ATEを計算する
$$
ATE = E(Y_{1}) - E(Y_{0}) = E(Y_{1}|do(Z=1)) - E(Y_{0}|do(Z=0))
$$

となるので、調整化公式を用いて変形すると
$$
ATE = \sum_{x}E(Y|Z = 1, X = x)P(X=x) - \sum_{x}E(Y|Z=0, X=x)P(X=x)
$$

さらに変形すると
$$
ATE =  \sum_{x}\frac{P(Y,Z=1,X=x)}{P(Z=1|X=x)} - \sum_{x}\frac{P(Y,Z=0,X=x)}{P(Z=0|X=x)}
$$

分母に登場するのが傾向スコア。Yが連続値の場合は
$$
ATE =  \frac{1}{N}\sum_{i}^N\frac{y_{i}}{P(Z=1|X=x_{i})}Z_{i} - \frac{1}{N}\sum_{i}^N\frac{y_{i}}{P(Z=0|X=x_{i})}(1-Z_{i})
$$

要するに傾向スコアによって介入有無での平均への影響の与え方に重みをつけるのがIPTW法

In [252]:
# ATEの計算
ATE_i = y/Z_pre[:,1]*Z - y/Z_pre[:,0]*(1-Z) # 分母にZ=0,1それぞれの傾向スコア、分子は実際の値
ATE = 1/len(Y) * ATE_i.sum()

print('estamate ATE :', ATE)

estamate ATE : 9.95789658569159


# Doubly Robust法

ATEは以下の式で計算できる
$$
ATE =  \frac{1}{N}\sum_{i}^N\frac{y_{i}}{P(Z=1|X=x_{i})}Z_{i} - \frac{1}{N}\sum_{i}^N\frac{y_{i}}{P(Z=0|X=x_{i})}(1-Z_{i})
$$

しかし、ある特定の人について、右式の第１項もしくは第2項しか使っていない（勿体無い）。ただ使っていない値は反実仮想のため不明。  
そこで回帰モデルを構築し反実仮想を推定し計算、これをIPTW法と組み合わせて使う。  
あるiさんの処置効果TEを
$$
\frac{y_{i}}{P(Z=1|X=x_{i})}Z_{i}
$$
ではなく
$$
\frac{y_{i}}{P(Z=1|X=x_{i})}Z_{i} + \biggl(1-\frac{Z_{i}}{P(Z=1|X=x_{i})}\biggl)\hat{Y^i_{1}}
$$
と考える。

上記式は$Z_{i} = 0$の場合
$$
\frac{y_{i}}{P(Z=1|X=x_{i})}Z_{i} + \biggl(1-\frac{Z_{i}}{P(Z=1|X=x_{i})}\biggl)\hat{Y^i_{1}} = \hat{Y_{i}}
$$
と反実仮想の推定値をとる。  
こうすることでIPTWでは考慮できていないかった反実仮想を計算に加えることができる。
同様に後半の項は
$$
\frac{1}{N}\sum_{i}^N\frac{y_{i}}{P(Z=0|X=x_{i})}(1-Z_{i})
$$

ではなく
$$
\frac{y_{i}}{P(Z=0|X=x_{i})}(1-Z_{i}) + \biggl(1-\frac{(1-Z_{i})}{P(Z=0|X=x_{i})}\biggl)\hat{Y^i_{0}}
$$

となり、回帰分析での推定を組み合わせる

In [253]:
### DR法の実装

## 反実仮想の実装 
# 説明変数
X = df[['age', 'gender', 'TVCM']]

# 目的変数
Y = df['amount']

# 反実仮想の推定（回帰モデル）
reg2 = LinearRegression().fit(X, Y)

# Z = 0の場合の推定
X_0 = X.copy()
X_0['TVCM'] = 0
Y_0 = reg2.predict(X_0)

# Z = 1の場合の推定
X_1 = X.copy()
X_1['TVCM'] = 1
Y_1 = reg2.predict(X_1)

## 傾向スコアの実装
Z = df['TVCM']
reg = LogisticRegression(solver = 'lbfgs').fit(X, Z)
Z_pre = reg.predict_proba(X)

## ATEの実装
ITE_1 = (Y / Z_pre[:,1] * Z) + (1 - Z / Z_pre[:,1]) * Y_1
ITE_0 = (Y / Z_pre[:,0] * (1-Z)) + (1 - (1-Z) / Z_pre[:,0]) * Y_0
ITE = ITE_1 - ITE_0
ATE = 1/len(Y)*ITE.sum()
print('estamateATE:', ATE)

estamateATE: 10.185940867088194


In [259]:
index = 198
a_1 = (Y[index] / Z_pre[:,1][index] * Z[index]) 
a_0 = (1 - Z[index] / Z_pre[:,1][index]) * Y_1[index]
a = a_1 + a_0
b_1 = (Y[index] / Z_pre[:,0][index] * (1 - Z[index]))
b_0 = (1 - (1 - Z[index]) / Z_pre[:,0][162]) * Y_0[index]
b = b_1 + b_0

print('T_p', Z[index])
print('a_1', a_1)
print('a_0', a_0)
print('b_1', b_1)
print('b_0', b_0)
print('b', b)
print('a-b',a - b)
print('ITE', ITE[index])

T_p 1.0
a_1 21.340735215599597
a_0 -0.2029812453965052
b_1 0.0
b_0 11.950166749807323
b 11.950166749807323
a-b 9.18758722039577
ITE 9.18758722039577


In [261]:
(1 - Z[index]) / Z_pre[:,0][162]

0.0

In [237]:
p = 0.0000000001
a_1 = (Y[index] / Z_pre[:,1][index] * p)
a_0 = (1 - p / Z_pre[:,1][index]) * Y_1[index]
a = a_1 + a_0
b_1 = (Y[index] / Z_pre[:,0][index] * (1 - p))
b_0 = (1 - (1 - p) / Z_pre[:,0][162]) * Y_0[index]
b = b_1 + b_0

print('T_p', Z[index])
print('a_1', a_1)
print('a_0', a_0)
print('a', a)
print('-------')
print('b_1', b_1)
print('b_0', b_0)
print('b', b)
print('-------')
print('a-b',a - b)
print('ITE', ITE[index])

T_p 0.0
a_1 7.536291220229226e-07
a_0 105.07426147959538
a 105.0742622332245
-------
b_1 95.72188508272637
b_0 -1.2052116879813215
b 94.51667339474506
-------
a-b 10.557588838479447
ITE 10.557588922656265


In [215]:
list(Z_pre[:,1]).index(min(Z_pre[:,1]))

162