In [None]:
"""
카이제곱 검정(chi-squared test) 또는 χ2 검정은 카이제곱 분포에 기초한 통계적 방법으로,
관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다.
자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다.

카이제곱 값은 χ2 = Σ (관측값 - 기댓값)^2 / 기댓값 으로 계산한다.

검증 유형 : 동질성 검증과 독립성 검증 두 유형이 있다.

동질성 검증: '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 
           이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다.
독립성 검증: 변인이 두 개 이상일 때 사용되며, 
           기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 
           관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힌다.
"""

In [1]:
from IPython import display
display.Image(url="https://wikimedia.org/api/rest_v1/media/math/render/svg/09e6396747ba7b2d5e987f127e5ef8804084db41")

In [None]:
# - 카이제곱분포: k(자유도)의 표준정규분포를 따르는 독립변수의 제곱의 합

In [8]:
"""
단변량 카이제곱검정 ( 적합도 검정 )

H0: 도수분포가 제시된 모형과 다르지 않음.
자유도: n-1
χ2 = Σ { (O - E)**2 / E }
"""
print("# 적합도(동질성) 검정")

# 적합도(동질성) 검정


In [2]:
observed, expected = [324, 78, 261], [371, 80, 212]


In [4]:
import pandas as pd
pd.DataFrame([observed, expected], columns=['A', 'B', 'C'], index=['OBS', 'EXP'])


Unnamed: 0,A,B,C
OBS,324,78,261
EXP,371,80,212


In [3]:
from scipy import stats
statistic, pvalue = stats.chisquare(f_obs=observed, f_exp=expected)  # H0 : 관찰빈도는 기대빈도와 같다
print("statistic:", statistic, "pvalue:", pvalue)


NameError: name 'observed' is not defined

In [9]:
"""
이변량 카이제곱검정 ( 독립성 검정 )

H0: 두 명목형 변수가 독립적
자유도 :  (r-1) x (c-1)
χ2 = ΣΣ { (Oij - Eij)**2 / Eij }

"""
print("# 독립성 검정")

# 독립성 검정


In [10]:
observed = [[440, 567, 349, 59], [924, 1311, 794, 102], [258, 311, 157, 19]]

In [11]:
pd.DataFrame(observed, columns=['18-29', '30-44', '45-64', '65세 이상'], index=['눈', '코', '목'])

Unnamed: 0,18-29,30-44,45-64,65세 이상
눈,440,567,349,59
코,924,1311,794,102
목,258,311,157,19


In [14]:
# stats.chi2_contingency(observed, correction=True, lambda_=None)
# Chi-square test of independence of variables in a contingency table(분할표).

# - 분할표 : 두 변수가 모두 범주형일 때, 도수분포표를 2차원으로 확장한 것

statistic, pvalue, dof, expected = stats.chi2_contingency(observed)  # H0 : 두 독립변수가 서로 관련이 없다
print("statistic:", statistic)
print("pvalue:", pvalue) # 0.02 귀무가설 기각, 나이와 진찰받은 부위가 서로 관계가 있다
print("dof:", dof)
print("expected:", expected)

statistic: 14.796099824447591
pvalue: 0.021903283890413405
dof: 6
expected: [[ 433.78000378  585.41580042  347.66584767   48.13834814]
 [ 959.83405783 1295.36174636  769.28746929  106.51672652]
 [ 228.38593839  308.22245322  183.04668305   25.34492534]]


In [4]:
print(stats.chisquare.__doc__)


    Calculate a one-way chi-square test.

    The chi-square test tests the null hypothesis that the categorical data
    has the given frequencies.

    Parameters
    ----------
    f_obs : array_like
        Observed frequencies in each category.
    f_exp : array_like, optional
        Expected frequencies in each category.  By default the categories are
        assumed to be equally likely.
    ddof : int, optional
        "Delta degrees of freedom": adjustment to the degrees of freedom
        for the p-value.  The p-value is computed using a chi-squared
        distribution with ``k - 1 - ddof`` degrees of freedom, where `k`
        is the number of observed frequencies.  The default value of `ddof`
        is 0.
    axis : int or None, optional
        The axis of the broadcast result of `f_obs` and `f_exp` along which to
        apply the test.  If axis is None, all values in `f_obs` are treated
        as a single data set.  Default is 0.

    Returns
    -------
    chisq :