# 7.3 独立性の検定

本ファイルは、7.3節の実装です。

データに対して独立性のカイ二乗検定を実施ます

## プログラム実行前の設定など

In [0]:
# 乱数のシードを設定
import random
import numpy as np

np.random.seed(1234)
random.seed(1234)


In [0]:
# 使用するパッケージ（ライブラリと関数）を定義
from numpy.random import *
import pandas as pd


## データの作成

In [3]:
# データ数
num_data = 100

# x1：0か1の値をnum_data個生成、0の確率は0.6、1の確率は0.4
x1 = np.random.choice([0, 1], num_data, p=[0.6, 0.4])

# x2：0か1の値をnum_data個生成、0の確率は0.4、1の確率は0.6
x2 = np.random.choice([0, 1], num_data, p=[0.4, 0.6])

# x2はx1と因果関係にあるとする
x2 = x2*x1

# 2変数で表にする
df = pd.DataFrame({'x1': x1,
                   'x2': x2,
                   })

df.head()  # 先頭を表示


Unnamed: 0,x1,x2
0,0,0
1,1,1
2,0,0
3,1,1
4,1,1


In [4]:
# 各カウント
print(((df["x1"] == 0) & (df["x2"] == 0)).sum())
print(((df["x1"] == 1) & (df["x2"] == 0)).sum())
print(((df["x1"] == 0) & (df["x2"] == 1)).sum())
print(((df["x1"] == 1) & (df["x2"] == 1)).sum())


58
9
0
33


## pgmpy（Python library for Probabilistic Graphical Models）による独立性の検定


In [5]:
!pip install pgmpy==0.1.9

Collecting pgmpy==0.1.9
[?25l  Downloading https://files.pythonhosted.org/packages/5a/b1/18dfdfcb10dcce71fd39f8c6801407e9aebd953939682558a5317e4a021c/pgmpy-0.1.9-py3-none-any.whl (331kB)
[K     |█                               | 10kB 19.2MB/s eta 0:00:01[K     |██                              | 20kB 1.7MB/s eta 0:00:01[K     |███                             | 30kB 2.5MB/s eta 0:00:01[K     |████                            | 40kB 1.7MB/s eta 0:00:01[K     |█████                           | 51kB 2.1MB/s eta 0:00:01[K     |██████                          | 61kB 2.5MB/s eta 0:00:01[K     |███████                         | 71kB 2.9MB/s eta 0:00:01[K     |████████                        | 81kB 2.2MB/s eta 0:00:01[K     |█████████                       | 92kB 2.5MB/s eta 0:00:01[K     |█████████▉                      | 102kB 2.8MB/s eta 0:00:01[K     |██████████▉                     | 112kB 2.8MB/s eta 0:00:01[K     |███████████▉                    | 122kB 2.8MB/s eta

In [6]:
# データ数
num_data = 100

# x1：0か1の値をnum_data個生成、0の確率は0.6、1の確率は0.4
x1 = np.random.choice([0, 1], num_data, p=[0.6, 0.4])

# x2：0か1の値をnum_data個生成、0の確率は0.4、1の確率は0.6
x2 = np.random.choice([0, 1], num_data, p=[0.4, 0.6])

# 2変数で表にする
df2 = pd.DataFrame({'x1': x1,
                   'x2': x2,
                   })

# 各カウント
print(((df2["x1"] == 0) & (df2["x2"] == 0)).sum())
print(((df2["x1"] == 1) & (df2["x2"] == 0)).sum())
print(((df2["x1"] == 0) & (df2["x2"] == 1)).sum())
print(((df2["x1"] == 1) & (df2["x2"] == 1)).sum())


20
15
35
30


In [7]:
from pgmpy.estimators import ConstraintBasedEstimator

est = ConstraintBasedEstimator(df2)
print(est.test_conditional_independence(
    'x1', 'x2', method="chi_square", tol=0.05))  # 独立

# 最初の例の場合
est = ConstraintBasedEstimator(df)
print(est.test_conditional_independence(
    'x1', 'x2', method="chi_square", tol=0.05))   # 独立でない


  import pandas.util.testing as tm


True
False


以上