In [1]:
import pandas as pd
import numpy as np
from scipy.stats import chisquare, chi2_contingency

## 범주형 자료 분석
- 세 종류 이름만 다르지 똑같음

### 1. 적합도 검정

250명의 고객들을 대상으로 (A,B,C,D,E) 색상 중 선호색상에 대한 자료를 얻어 고객들의 선호색상 분포가 자동차회사의 계쇡 비율에 적합한지를 검정

In [4]:
# 관측도수와 기대도수
data = [
    [90, 30, 35, 55, 40], 
    [0.3, 0.15, 0.1, 0.25, 0.2]
]
df=pd.DataFrame(data, index=['관측도수', '확률'], columns=['A', 'B', 'C', 'D', 'E'])
df

Unnamed: 0,A,B,C,D,E
관측도수,90.0,30.0,35.0,55.0,40.0
확률,0.3,0.15,0.1,0.25,0.2


In [71]:
x = np.array(df.loc['관측도수'].tolist())
e_x = np.array(df.loc['확률'].tolist()) * x.sum() # 기대도수

# 일원 카이제곱 검정 !!!
chisquare(x, e_x)

Power_divergenceResult(statistic=11.4, pvalue=0.02241796856505753)

pvalue가 0.05보다 작으므로 귀무가설 기각. 따라서 적합하지 않음.

### 2. 독립성 검정

고객 등급(A~D)과 카드 사용액이 관련이 있을 것으로 생각하여 독립성검정을 실시

In [19]:
data = pd.read_csv('./data/ex7-4.csv')

d_table = pd.crosstab(index=data['amount'], columns=data['level'], 
                      values=data['count'], aggfunc='sum', margins=True)
d_table

level,A,B,C,D,All
amount,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10under,21,42,60,5,128
10~20,15,122,45,14,196
20~40,94,100,16,30,240
40~70,120,65,20,18,223
70upper,32,9,12,20,73
All,282,338,153,87,860


In [17]:
# 이원 카이제곱 검정 !!!
chi2_contingency(d_table)

(252.05782411526025,
 4.392425562427717e-42,
 20,
 array([[ 41.97209302,  50.30697674,  22.77209302,  12.94883721,
         128.        ],
        [ 64.26976744,  77.03255814,  34.86976744,  19.82790698,
         196.        ],
        [ 78.69767442,  94.3255814 ,  42.69767442,  24.27906977,
         240.        ],
        [ 73.12325581,  87.64418605,  39.67325581,  22.55930233,
         223.        ],
        [ 23.9372093 ,  28.69069767,  12.9872093 ,   7.38488372,
          73.        ],
        [282.        , 338.        , 153.        ,  87.        ,
         860.        ]]))

In [27]:
# (A, 10under) 구하는 공식 - 기대도수 구하는 식
d_table.loc['10under', 'All'] * d_table.loc['All', 'A'] / d_table.loc['All', 'All']

41.972093023255816

### 3. 동질성 검정

어느 공장은 근무 시간대에 따른 불량률이 모두 같은지를 알아보기 위하여 다음과 같은 자료를 얻었다. 여기서 세 작업 시간대에 따른 불량품 분포가 비슷한가를 알아보기 위한 동질성 검정을 수행하라

In [64]:
data = np.array([
    ['day', 'evening', 'night','day', 'evening', 'night'],
    [905, 890, 870, 45, 55, 70],
    ['O','O','O','X','X','X']
]).T

In [65]:
df3 = pd.DataFrame(data,
        columns=['time', 'count', 'goods'])
df3['count'] = df3['count'].astype(int)
df3

Unnamed: 0,time,count,goods
0,day,905,O
1,evening,890,O
2,night,870,O
3,day,45,X
4,evening,55,X
5,night,70,X


In [68]:
d_table = pd.crosstab(index=df3['goods'], columns=df3['time'], values=df3['count'],
           aggfunc='sum', margins=True)
d_table

time,day,evening,night,All
goods,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
O,905,890,870,2665
X,45,55,70,170
All,950,945,940,2835


In [69]:
chi2_contingency(d_table)

(6.233920047684764,
 0.3975030174967241,
 6,
 array([[ 893.0335097 ,  888.33333333,  883.63315697, 2665.        ],
        [  56.9664903 ,   56.66666667,   56.36684303,  170.        ],
        [ 950.        ,  945.        ,  940.        , 2835.        ]]))