## 用語紹介

・**回帰分析**

OLS(最小二乗法)をもとに得られた誤差が最小化されたパラメーターの推定結果をもとにXの値が決まったときにYの値を予測する分析手法。

母集団上のYとYの条件付き期待値と回帰式の関係性：
$$
    \begin{align*}
    Y = E[Y|X] + µ = β_{0} + β_{1}X + µ
    \end{align*}
$$

上記の関係式よりわかる通り、手元のサンプルデータで回帰分析を行うことは、このような関係を満たす $β0, β1$ の値を 手元のデータから推定して $\widehat{β_{0}} $ や $\widehat{β_{1}}$ として得るということである

*よって,回帰分析では単にYに対する近似値を得ているだけでなく、Yの条件付き期待値 $ E[Y|X]$に対する推定値を得ているということになる*


・**回帰分析による効果測定**

介入効果は期待値の差 $E[Y|X,Z = 1] - E[Y|X,Z =0]$ にある. 
つまり

$$
    \begin{align*}
    &E[Y|X,Z = 1] = β_{0} + β_{1}X + β_{2}X^2 + β_{3}1\\
    &E[Y|X,Z = 0] = β_{0} + β_{1}X + β_{2}X^2 + β_{3}0\\
    \\
    E[Y|X,Z = 1] - E[Y|X,Z = 0]
    &= (β_{0} + β_{1}X + β_{2}X^2 + β_{3}1) - (β_{0} + β_{1}X + β_{2}X^2 + β_{3}0)\\
    &= β_{3}
    \end{align*}
$$

In [12]:
# 警告の非表示
import warnings
warnings.filterwarnings('ignore')

# import library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random

In [4]:
email_data = pd.read_csv("http://www.minethatdata.com/Kevin_Hillstrom_MineThatData_E-MailAnalytics_DataMiningChallenge_2008.03.20.csv")
email_data.head()

Unnamed: 0,recency,history_segment,history,mens,womens,zip_code,newbie,channel,segment,visit,conversion,spend
0,10,2) $100 - $200,142.44,1,0,Surburban,0,Phone,Womens E-Mail,0,0,0.0
1,6,3) $200 - $350,329.08,1,1,Rural,1,Web,No E-Mail,0,0,0.0
2,7,2) $100 - $200,180.65,0,1,Surburban,1,Web,Womens E-Mail,0,0,0.0
3,9,5) $500 - $750,675.83,1,0,Rural,1,Web,Mens E-Mail,0,0,0.0
4,2,1) $0 - $100,45.34,1,0,Urban,0,Web,Womens E-Mail,0,0,0.0


In [8]:
# filter out the data with email delivery which is for women
male_data = email_data[email_data['segment'] != 'Womens E-Mail']
male_data['treatment'] = np.where(male_data['segment'] == 'Mens E-Mail', 1, 0)

In [15]:
np.random.rand()

0.08887841693205556

In [9]:

# # set seed
# random.seed(314)

# obs_rate_c = 0.5
# obs_rate_t = 0.5

# # create the biased data
# male_data['obs_rate_c'] = np.where((male_data['history'] > 300) | (male_data['recency'] < 6) | (male_data['channel'] == 'Multichanel'), obs_rate_c, 1)
# male_data['obs_rate_t'] = np.where((male_data['history'] > 300) | (male_data['recency'] < 6) | (male_data['channel'] == 'Multichanel'), 1, obs_rate_t)
# male_data['random_number'] = np.where((male_data['history'] > 300) | (male_data['recency'] < 6) | (male_data['channel'] == 'Multichanel'), np.random.rand(), obs_rate_t)

NameError: name 'random' is not defined