In [None]:
# A 피셔의 정확검정
# B McNemar Test(맥니마 검정)
# C 카이제곱 검정(독립성)
# D 카이제곱 검정(적합성, 동질성) - 파이썬 한권으로 끝내기 319P 참고

In [1]:
## A 피셔의 정확검정
# 카이제곱 검정에서 기대 빈도 가정이 충족되지 못 할 때 사용하는 검정법
# 편하게 생각하시려면, 표본 수가 적을 때 사용하는 카이제곱 검정이라고 생각할 수 있습니다.
# (1) n(총수)이 충분히 크지 않다면(25보다 크지 않다) 어떤 방법을 사용해야하고 
# (2) 각 개별 구간수가 작으면( 기대도수가 5 미만인 칸이 전체의 20%를 초과) 피셔의 정확검정을 사용한다.

# ㅁ 가정
# 1. 독립성 가정(한 명의 대상에게서 하나의 결과값을 얻어야 함)
# ㅁ 가설
# 귀무가설 : 두 변수는 서로 독립적이다. (=연관이 없다.)
# 대립가설 : 두 변수는 서로 독립적이지 않다. (=연관이 있다.)

In [2]:
import pandas as pd
df = pd.read_csv('C:/adp/data/chisquare.csv')
df.tail()

Unnamed: 0,country,movie
85,3,3
86,3,1
87,3,2
88,3,1
89,3,3


In [7]:
print(df.groupby(['country', 'movie'])['movie'].count())
df3 = [ [12,9], [8,18] ]

country  movie
1        1        12
         2         9
         3         9
2        1         8
         2        18
         3         4
3        1         4
         2         2
         3        24
Name: movie, dtype: int64


In [5]:
from scipy.stats import fisher_exact
oddsratio, pvalue = fisher_exact(df3)
print(oddsratio)
print(pvalue)
# p-value=0.0837 이므로 귀무가설을 채택하여 두 변수는 서로 독립적(연관이없다)라고 할 수 있다.

3.0
0.08371071933650787


In [None]:
## B McNemar Test(맥니마 검정)
# 2x2 빈도표에서 사용합니다.
# 표본이 독립이 아닐 때(=대응표본일 때), 사용하는 검정입니다.
# ㅁ 가정 
# 1. 표본이 대응 표본이다. (표본들이 독립이 아님.) > 가설 - 귀무가설 : 처리전후 동일하다. 대립가설 : 처리전후 동일하지 않다.
# 2. 각각 받은 집단의 합이 20 이상

In [1]:
import pandas as pd
df = pd.read_csv('C:/adp/data/mcnemar.csv')
df.tail()

Unnamed: 0,before,after
65,1,0
66,0,0
67,0,1
68,1,1
69,1,0


In [2]:
import pingouin as pg
# McNemar's Test with no continuity correction
pg.chi2_mcnemar(df, 'before', 'after', correction = False) 
# p-value=0.0327 이므로 귀무가설을 기각하여 처리전후 차이가 존재한다고 볼 수 있음

  **kwargs


(after    0   1
 before        
 0       16  14
 1       29  11,
              chi2  dof  p-approx   p-exact
 mcnemar  5.232558    1  0.022168  0.031539)

In [3]:
# McNemar's Test with continuity correction 
# 오차를 교정하기 위해 검정통계량은 아래와 같이 수정합니다. 분자의 제곱되는 항에 절댓값을 씌우고 0.5를 뺀 것입니다. 이는 검정통계량의 크기는 감소하고 p값은 증가함. 
pg.chi2_mcnemar(df, 'before', 'after', correction = True) 
# p-value=0.02 이므로 귀무가설을 기각하여 처리전후 차이가 존재한다고 볼 수 있음

(after    0   1
 before        
 0       16  14
 1       29  11,
             chi2  dof  p-approx   p-exact
 mcnemar  4.55814    1  0.032763  0.031539)

In [4]:
## C 카이제곱 검정(독립성)
# 주로 2개의 명목형 변수를 대상으로 연관성에 대해 검정을 할 때 사용합니다.
# ㅁ 가정
# 1. 독립성 가정(한 명의 대상에게서 하나의 결과값을 얻어야 함)
# 2. 기대 빈도가 5미만인 셀은 전체 셀의 20% 미만이어야 한다.
# ㅁ 가설
# 귀무가설 : 두 변수는 서로 독립적이다. (=연관이 없다.)
# 대립가설 : 두 변수는 서로 독립적이지 않다. (=연관이 있다.)

In [17]:
import pandas as pd
df = pd.read_csv('C:/adp/data/chisquare.csv')
df.tail()

Unnamed: 0,country,movie
85,3,3
86,3,1
87,3,2
88,3,1
89,3,3


In [18]:
import pingouin as pg
expected, observed, stats = pg.chi2_independence(df, x='country', y='movie')
stats # pearson으로 확인하면 된다.
# 독립성 검정결과 pval 4.921459e-07로 유의수준 0.05보다 작으므로 귀무가설을 기긱한다. 
# country, movie는 유의수준 0.05하에서 독립이 아니라고 할 수 있다.



Unnamed: 0,test,lambda,chi2,dof,pval,cramer,power
0,pearson,1.0,34.877912,4.0,4.921459e-07,0.440189,0.935548
1,cressie-read,0.666667,34.848447,4.0,4.990512e-07,0.440003,0.935337
2,log-likelihood,0.0,36.254719,4.0,2.564737e-07,0.448793,0.944723
3,freeman-tukey,-0.5,38.926877,4.0,7.212978e-08,0.465038,0.959237
4,mod-log-likelihood,-1.0,43.550672,4.0,7.953469e-09,0.491882,0.976388
5,neyman,-2.0,62.896605,4.0,7.134569e-13,0.591122,0.998058
