In [1]:
import pandas as pd
import numpy as np

from scipy import stats
import statsmodels.formula.api as sm
from statsmodels import regression
import statsmodels

import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import font_manager, rc, rcParams

# 15. 범주형 자료분석
## 15.1 서론
- 범주형 자료 : 관측치들이 몇 개의 범주로 분류되고 각 범주의 도수로 자료가 주어지는 것

In [24]:
# example 9 
obs = [18,55,27]
pr = [0.25, 0.5, 0.25]
n = np.sum(obs)
exp = np.multiply(n, pr)
df = len(obs) - 1

stats.chisquare(obs, exp) # 적합도 검정

Power_divergenceResult(statistic=2.62, pvalue=0.26982005638468687)

In [25]:
# example 10
data = pd.DataFrame([['a', 'ok', 37], ['a', 'mid', 24], ['a', 'ng', 19], ['b', 'ok', 17], ['b', 'mid', 33], ['b', 'ng', 20]])
diet = pd.crosstab(columns=data[1], index=data[0], values=data[2], aggfunc='sum')#, margins=True)

stats.chi2_contingency(diet) # 동질성 검정

(8.22398544438018,
 0.01637511094543408,
 2,
 array([[30.4, 20.8, 28.8],
        [26.6, 18.2, 25.2]]))

In [2]:
# example 1
a = 18 ; b = 55 ; c = 27
all_sum = 100
pa = a / all_sum
pb = b / all_sum
pc = c / all_sum
print(pa, pb, pc)

0.18 0.55 0.27


In [4]:
# example 2
data = pd.DataFrame([['a', 'ok', 37], ['a', 'mid', 24], ['a', 'ng', 19], ['b', 'ok', 17], ['b', 'mid', 33], ['b', 'ng', 20]])
diet = pd.crosstab(columns=data[1], index=data[0], values=data[2], aggfunc='sum', margins=True)

diet

1,mid,ng,ok,All
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,24,19,37,80
b,33,20,17,70
All,57,39,54,150


In [13]:
diet_ratio = pd.crosstab(columns=data[1], index=data[0], values=data[2], aggfunc='sum', margins=True, normalize='columns')
diet_ratio
"동질성 검정의 귀무가설은 p_{Ai} = p_{Bi}"

'동질성 검정의 귀무가설은 p_{Ai} = p_{Bi}'

In [15]:
# example 3
data = pd.DataFrame([['male', 'much', 378], ['male', 'ok', 237], ['male', 'less', 26], ['female', 'much', 388], ['female', 'ok', 196], ['female', 'less', 25]])
watch = pd.crosstab(columns=data[1], index=data[0], values=data[2], aggfunc='sum', margins=True)

print(watch)
"독립성 검정 : 방영에 대한 의견은 개인의 성별과 무관하다는 귀무가설 검정"

1       less  much   ok   All
0                            
female    25   388  196   609
male      26   378  237   641
All       51   766  433  1250


'독립성 검정 : 방영에 대한 의견은 개인의 성별과 무관하다는 귀무가설 검정'

## 15.2 피어슨의 $\chi^2$(카이제곱) 적합도 검정
- 귀무가설에서 제시한 각 범주의 비율이 실제 자료에 적합한가?
$$H_0:p_1=p_{10},\dots,p_k=p_{k0}$$
$$Observed=n_i\quad Expected=n\times p_{i0] \\ \chi^2=\sum\frac{(O-E)^2}{E}=\sum^k_{i=1}\frac{(n_i-np_{i0})^2}{np_{i0}} \ quad df=(범주의\ 갯수)-1$$

> **피어슨의 $\chi^2$ 적합도 검정**
>
> $$H0:p_1=p_{10}, \dots, p_k=p_{k0}$$
> $$\chi^2=\sum\frac{(O-E)^2}{E}=\sum^k_{i=1}\frac{(n_i-np_{i0})^2}{np_{i0}} \quad df=(범주의\ 갯수)-1$$
> 유의수준 $\alpha$에 대한 기각역은 $R:\chi^2\geq\chi^2_\alpha(k-1)$

> **$\chi^2$ 분포의 특성**
>
> 1) 독립인 표본으로부터 계산된 $\chi^2$통계량들을 더하면, 그 합도 $\chi^2$ 분포를 따르며, 자유도는 각 자유도의 합과 같다 $$\chi^2(k_1)+\dots+\chi^2(k_r)\sim \chi^2(k_1+\dots+k_r)$$
> 2) $\chi^2$통계량을 계산하는데 만약 모수의 추정치를 사용하였다면, 통계량 분포의 자유도는 추정한 모수의 개수만큼 감소하게 된다 $$\chi^2의 자유도=(모수를\ 알고\ 있을\ 경우의\ 자유도)-(추정된\ 모수의\ 수)$$

- 피어슨 $\chi^2$검정은 표본의 크기가 큰 경우에만 적합 : 각 칸의 기대도수가 5 이상이면 가능
    - 기대도수가 5보다 작은 칸이 많은 경우에는, 여러 칸을 합하여 기대도수를 크게 하거나, $2\times 2$ 분할표에서는 피셔의 정확검정법 사용

In [33]:
# example 4
obs = [18, 55, 27]
exp = [25, 50 ,25]
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-0.05/2, df=len(obs)-1)

2.62


7.377758908227871

In [34]:
# prob 2.2
obs = [38, 43, 10, 5]
exp = [96/4, 96/4, 96/4, 96/4]

alpha = 0.05
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-alpha/2, df=len(obs)-1)

46.416666666666664


9.348403604496148

In [36]:
# prob 2.4
obs = [61, 55, 41, 41]
exp = [198/4, 198/4, 198/4, 198/4]

alpha = 0.05
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-alpha/2, df=len(obs)-1)

6.2020202020202015


9.348403604496148

In [41]:
# prob 2.6
obs = [141, 291, 132]
exp = np.multiply(np.sum(obs), [1/4, 1/2, 1/4])

alpha = 0.05
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-alpha/2, df=len(obs)-1)

0.8617021276595745


7.377758908227871

In [42]:
# prob 2.8
obs = [462, 171, 76, 57, 92, 74]
exp = np.multiply(np.sum(obs), [0.59, 0.15, 0.06, 0.06, 0.07, 0.07])

alpha = 0.01
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-alpha/2, df=len(obs)-1)

40.39164735509392


16.74960234363904

In [52]:
# prob 2.10
# 1
print(
    stats.binom.pmf(k=0,n=3,p=0.5),
    stats.binom.pmf(k=1,n=3,p=0.5),
    stats.binom.pmf(k=2,n=3,p=0.5),
    stats.binom.pmf(k=3,n=3,p=0.5),
)

0.125 0.3750000000000001 0.3750000000000001 0.125


In [53]:
# 2
obs = [31, 40, 16, 13]
p = [stats.binom.pmf(k=0,n=3,p=0.5),
    stats.binom.pmf(k=1,n=3,p=0.5),
    stats.binom.pmf(k=2,n=3,p=0.5),
    stats.binom.pmf(k=3,n=3,p=0.5)]
exp = np.multiply(np.sum(obs), p)

alpha = 0.05
chi2 = np.sum(np.divide(np.subtract(obs, exp)**2, exp)); print(chi2)
stats.chi2.ppf(1-alpha/2, df=len(obs)-1)

39.893333333333345


9.348403604496148

## 15.3 동질성 검정
- 모집단을 분류된 범주에 따라 2원 분할표로 표현 후, 모집단들이 각 범주에 대하여 같은 반응을 보이는지 검정
- 각 반응범주에서 관측된 비율을 가지고 모집단 별로 같은지 조사
$$H_0: p_{A1}=p_{B1},\  p_{A2}=p_{B2},\ p_{A3}=p_{B3},$$
$$칸의\ 추정기대도수=\frac{칸이\ 속한\ 행의\ 합계\times 칸이\ 속한\ 열의\ 합계}{전체\ 합계}$$

In [159]:
# example 5
data = pd.DataFrame([['a', 'ok', 37], ['a', 'mid', 24], ['a', 'ng', 19], ['b', 'ok', 17], ['b', 'mid', 33], ['b', 'ng', 20]])
diet = pd.crosstab(columns=data[1], index=data[0], values=data[2], aggfunc='sum')#, margins=True)

diet

1,mid,ng,ok
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,24,19,37
b,33,20,17


In [160]:
diet_exp = pd.DataFrame(diet)
all_sum = np.sum(diet.sum())
row_sum = col_sum = 0


for row in ['a', 'b']:
    row_sum = 0
    row_sum = np.sum(diet.loc[row, :])
    for col in ['ok', 'mid', 'ng']:
        print(row, col)
        col_sum = 0
        col_sum = np.sum(diet.loc[:, col])
        print(row_sum, col_sum)
        diet_exp.loc[row,col] = row_sum * col_sum / all_sum
        
diet_exp        

a ok
80 54
a mid
80 57
a ng
80 39
b ok
70.0 45.8
b mid
70.0 63.4
b ng
70.0 40.8


1,mid,ng,ok
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,30.4,20.8,28.8
b,29.586667,19.04,21.373333


In [134]:
print(
    np.sum(diet.loc[:, 'mid']),
    np.sum(diet.loc['b',:])
)

63.4 70.0


In [151]:
np.sum(diet.loc[:, 'ok']) * np.sum(diet.loc['a',:]) / all_sum

28.8

In [152]:
np.sum(diet.loc[:, 'ok'])

54