In [1]:
# 독립성 검정
# 모집단을 범주화하는 기준이 되는 두 변수 A,B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정 
# H0(귀무가설): 두 변수 사이에는 연관이 없다. (독립이다)
# H1(대립가설): 두 변수 사이에는 연관이 있다. (종속이다)

In [2]:
# survey 데이터의 Exer변수와 W.Hnd변수가 서로 독립인지를 확인
# H0: W.Hnd변수와 Exer은 독립이다.
# H1: W.Hnd변수와 Exer은 독립이 아니다.

In [3]:
# load survey data set in Mass
# Download Mass package : https://forge.scilab.org/index.php/p/rdataset/source/tree/master/csv/MASS
import pandas as pd
survey_df = pd.read_csv('rdataset-master\csv\MASS\survey.csv')

In [4]:
# data check
print(survey_df.head())
print(survey_df.describe())

   Unnamed: 0     Sex  Wr.Hnd  NW.Hnd  W.Hnd     Fold  Pulse     Clap  Exer  \
0           1  Female    18.5    18.0  Right   R on L   92.0     Left  Some   
1           2    Male    19.5    20.5   Left   R on L  104.0     Left  None   
2           3    Male    18.0    13.3  Right   L on R   87.0  Neither  None   
3           4    Male    18.8    18.9  Right   R on L    NaN  Neither  None   
4           5    Male    20.0    20.0  Right  Neither   35.0    Right  Some   

   Smoke  Height       M.I     Age  
0  Never   173.0    Metric  18.250  
1  Regul   177.8  Imperial  17.583  
2  Occas     NaN       NaN  16.917  
3  Never   160.0    Metric  20.333  
4  Never   165.0    Metric  23.667  
       Unnamed: 0      Wr.Hnd      NW.Hnd       Pulse      Height         Age
count  237.000000  236.000000  236.000000  192.000000  209.000000  237.000000
mean   119.000000   18.669068   18.582627   74.151042  172.380861   20.374515
std     68.560193    1.878981    1.967068   11.687157    9.847528    

In [5]:
# 분할표 생성
df_data = pd.crosstab(survey_df['W.Hnd'], survey_df.Exer)
print(df_data)

Exer   Freq  None  Some
W.Hnd                  
Left      7     3     8
Right   107    21    90


In [6]:
from scipy.stats import chi2_contingency 
chi_2, p, dof, expected = chi2_contingency([df_data.iloc[0], df_data.iloc[1]])
msg = 'Test Statistic: {}\np-value: {}\nDegree of Freedom: {}'
print(msg.format(chi_2, p, dof)) 
print(expected)

Test Statistic: 1.2065256705182212
p-value: 0.5470238723125773
Degree of Freedom: 2
[[  8.69491525   1.83050847   7.47457627]
 [105.30508475  22.16949153  90.52542373]]


In [7]:
# p-value가 0.547로 0.05보다 크기 때문에 H0를 기각하지 않는다.
# survey data의 설문 응답자들이 주로 사용하는 손과 운동빈도는 서로 독립이라고 말할 수 있다.