<a href="https://colab.research.google.com/github/wakamatsuikuma/MEMO_causal_analysis_by_python/blob/main/7_3_%E5%A4%89%E6%95%B0%E9%96%93%E3%81%AE%E7%8B%AC%E7%AB%8B%E6%80%A7%E3%81%AE%E6%A4%9C%E5%AE%9A.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 独立性の検定

1. x1 -> x2で因果関係あり
2. x1、x2に因果関係無い
それぞれの場合で、データを生成し、各データセットをカイ二乗検定で独立性を判定する。


 ## 各種設定とライブラリのインポート

In [None]:
# 乱数のシードを設定
import random
import numpy as np

np.random.seed(1234)
random.seed(1234)

In [None]:
# 使用するパッケージを大義
from numpy.random import *
import pandas as pd

## データ生成

In [None]:
# df1 : x1 -> x2の因果関係有り

# データ数の指定
num_data = 100

# x1:0か1の値を生成。0の確率は0.6, 1の確率は0.4。
x1 = np.random.choice([0, 1], num_data, p=[0.6, 0.4])

# x2:0か1の値を生成。0の確率は0.4, 1の確率は0.6。
x2 = np.random.choice([0, 1], num_data, p=[0.4, 0.6])

# x2はx1の因果関係にあるとする
x2 = x1*x2

# データテーブル作成
df1 = pd.DataFrame({"x1": x1, "x2": x2})

df1.head()

Unnamed: 0,x1,x2
0,0,0
1,1,1
2,0,0
3,1,1
4,1,1


In [None]:
# df2 : x1, x2間に因果関係なし

# df1 : x1 -> x2の因果関係有り

# データ数の指定
num_data = 100

# x1:0か1の値を生成。0の確率は0.6, 1の確率は0.4。
x1 = np.random.choice([0, 1], num_data, p=[0.6, 0.4])

# x2:0か1の値を生成。0の確率は0.4, 1の確率は0.6。
x2 = np.random.choice([0, 1], num_data, p=[0.4, 0.6])

# データテーブル作成
df2 = pd.DataFrame({"x1": x1, "x2": x2})

df2.head()

Unnamed: 0,x1,x2
0,1,0
1,1,1
2,1,1
3,1,1
4,1,1


# pgmpy(Python library for Probabilistic Graphical Models)による独立性の検定

In [None]:
# データ確認
print(len(df1[df1["x1"] == 0]))
print(len(df1[df1["x1"] == 1]))
print(len(df1[df1["x2"] == 0]))
print(len(df1[df1["x2"] == 1]))

# 各カウント
print(((df1["x1"] == 0) & (df1["x2"] == 0)).sum())
print(((df1["x1"] == 1) & (df1["x2"] == 0)).sum())
print(((df1["x1"] == 0) & (df1["x2"] == 1)).sum())
print(((df1["x1"] == 1) & (df1["x2"] == 1)).sum())


58
42
67
33
58
9
0
33


In [None]:
# データ確認
print(len(df2[df2["x1"] == 0]))
print(len(df2[df2["x1"] == 1]))
print(len(df2[df2["x2"] == 0]))
print(len(df2[df2["x2"] == 1]))

# 各カウント
print(((df2["x1"] == 0) & (df2["x2"] == 0)).sum())
print(((df2["x1"] == 1) & (df2["x2"] == 0)).sum())
print(((df2["x1"] == 0) & (df2["x2"] == 1)).sum())
print(((df2["x1"] == 1) & (df2["x2"] == 1)).sum())

55
45
35
65
20
15
35
30


In [None]:
!pip install pgmpy==0.1.9

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pgmpy==0.1.9
  Downloading pgmpy-0.1.9-py3-none-any.whl (331 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m331.7/331.7 KB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pgmpy
Successfully installed pgmpy-0.1.9


In [None]:
# カイ二乗検定(、p値5%)で独立性の判
from pgmpy.estimators import ConstraintBasedEstimator

est = ConstraintBasedEstimator(df1)
print(est.test_conditional_independence("x1", "x2", 
                                        method = "chi_square", 
                                        tol = 0.05))

est = ConstraintBasedEstimator(df2)
print(est.test_conditional_independence("x1", "x2", 
                                        method = "chi_square", 
                                        tol = 0.05))


False
True
