# 4.1 回帰分析による因果推論

## プログラム実行前の設定など

In [1]:
# 乱数のシードを設定
import random
import numpy as np

np.random.seed(1234)
random.seed(1234)

In [2]:
# 使用するパッケージを定義
from numpy.random import *
import matplotlib.pyplot as plt
import scipy.stats
from scipy.special import expit
import pandas as pd

## データの作成

In [3]:
num_data = 200

# 年齢
x_1 = randint(15,76, num_data)

# 性別
x_2 = randint(0,2, num_data)

## テレビCMをみたかどうか

In [7]:
# ノイズの生成
e_z = randn(num_data)

# シグモイド関数に入れる関数
z_base = x_1 + (1-x_2)*10 - 40 + 5*e_z

# シグモイド関数を計算
z_prob = expit(0.1*z_base)

# テレビCMを見たかどうかの変数(0は見ていない,1は見た)
Z = np.array([])

for i in range(num_data):
    Z_i = np.random.choice(2, size=1, p=[1-z_prob[i], z_prob[i]])[0]
    Z = np.append(Z, Z_i)

## 購入量Yを生成

In [8]:
# ノイズの生成
e_y = randn(num_data)

Y = -x_1 + 30*x_2 + 10*Z + 80 + 10*e_y

## データをまとめた表を作成し、平均値を比べる

In [9]:
df = pd.DataFrame({'年齢': x_1,
                   '性別': x_2,
                   'CMを見た': Z,
                   '購入量': Y,
                   })

df.head()  # 先頭を表示

Unnamed: 0,年齢,性別,CMを見た,購入量
0,62,0,1.0,42.12862
1,34,0,0.0,59.217174
2,53,1,1.0,45.555485
3,68,1,1.0,62.237225
4,27,1,0.0,91.239232


In [10]:
# 平均値を比べる

print(df[df["CMを見た"] == 1.0].mean())
print("--------")
print(df[df["CMを見た"] == 0.0].mean())


年齢       55.976378
性別        0.511811
CMを見た     1.000000
購入量      49.498325
dtype: float64
--------
年齢       30.273973
性別        0.657534
CMを見た     0.000000
購入量      69.207464
dtype: float64


## 回帰分析を実施

In [12]:
from sklearn.linear_model import LinearRegression

# 説明変数
X = df[["年齢", "性別", "CMを見た"]]

# 被説明変数(目的変数)
y = df["購入量"]

# 回帰の実施
reg = LinearRegression().fit(X,y)

# 回帰した結果の係数を出力
print("係数：", reg.coef_)

係数： [-0.94339193 32.03619846  9.20672113]
