In [None]:
'''해야할 일
   1)검정의 가정 확인하기
'''

In [1]:
import pandas as pd
claim = pd.read_csv('data/Ashopping.csv', encoding='cp949')

## Chapter 8. Chi-Squared Test
범주형 변수의 여러 개의 범주별 관측도수가 주어질 때 주어진 비율과 유의한지, 다른 범주형 변수와의 관계를 확인하는 비율검정이다.

### 적합도 검정
귀무가설로 제시되는 모집단의 각 범주별 비율과 표본에서의 각 범주별 비율의 차이로 제시된 비율이 표본에서도 유의할만큼 적합한 지를 검정한다.
- 적합도 검정의 가설은 아래와 같다.
  <center>$H_0$: 제시된 모집단의 비율이 표본에서도 성립한다.&#160; $H_1$: 제시된 모집단의 비율과 표본에서의 비율간 차이가 존재한다.$\quad$</center>
- 카이제곱 통계량은 관측도수와 기대도수의 차이와 비례하기에 카이제곱 통계량이 작으면 제시된 범주별 비율이 표본에서 크게 다르지 않음을 의미한다.
  $$E_t = NP_t, ~\chi^2_{k-1} = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}$$
  $$(N: \text{표본 수}, P_t: \text{귀무가설의 범주}t\text{ 비율},~ k: \text{범주수, }O_t:\text{범주} t{의~ 관측도수, }~E_t:\text{범주} t{의~기대도수})$$  

In [None]:
# 예시 1)클레임 접수 고객의 범주별 비율이 0.1, 0.3, 0.2, 0.4인지 검정한다.

In [5]:
# 1)구매유형별 클레임 빈도를 산출한다.
f_claim = pd.crosstab(claim.클레임접수여부, claim.구매유형, margins=True)
f_claim

구매유형,1,2,3,4,All
클레임접수여부,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,24,197,57,263,541
1,19,120,87,233,459
All,43,317,144,496,1000


In [16]:
# 2)관측도수와 기대도수를 구한다.
O = f_claim.loc[1, :4] 
E = f_claim.loc[1, 'All'] * pd.Series([0.1,0.3,0.2,0.4], index=range(1,5))

In [18]:
# 3)적합도를 검정한다.
#  :p-value가 매우 낮음에 귀무가설을 기각한다. 즉, 주어진 범주별 비율과 실제 비율은 차이가 있다.
from scipy.stats import chisquare
chisquare(O, E)

Power_divergenceResult(statistic=31.582788671023955, pvalue=6.407672361002909e-07)

In [23]:
# 4)실제 범주별 비율을 구해본다.
#  :1회성 구매유형은 비율이 적고 집중구매유형은 비율이 50%를 넘게 크다. 집중구매유형에 더 초점을 두어 방안을 모색해야 한다.
f_claim.loc[1].div(f_claim.loc[1, 'All'])

구매유형
1      0.041394
2      0.261438
3      0.189542
4      0.507625
All    1.000000
Name: 1, dtype: float64

### 독립성 검정
관측도수로부터 두 범주형 변수 사이의 연관성이 있는지 검정한다.
- 독립성 검정의 가설은 아래와 같다.
  <center>$H_0$: 두 범주형 변수는 독립이다. $H_1$: 두 범주형 변수는 연관성이 있다.</center>
- 두 범주형 변수를 고려함으로써 각 범주의 기대도수는 각 범주의 주변빈도 곱을 전제 데이터수로 나누어 구한다.
  $$E_{ij} = \frac{\sum_{j=1}^{b}O_{ij} \times \sum_{i=1}^{a}O_{ij}}{N}$$
  $$(N\text{: 표본수},~a\text{: 변수} A\text{의 범주수},~ b\text{: 변수} B\text{의 범주수},~O_{ij}\text{: 변수 A의 범주 i이자 변수 B의 범주 j의 빈도})$$
  두 변수간 연관성이 존재하지 않는다면 관측도수와 기대도수값이 유사하게 나타나 카이제곱 통계량은 매우 작은 값을 갖는다.
  $$\chi^2_{(a-1)\times(b-1)} = \sum_{i=1}^{a}\sum_{j=1}^{b} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}$$
  $$(a\text{: 변수} A\text{의 범주수},~ b\text{: 변수} B\text{의 범주수},~O_{ij}\text{: 변수 A의 범주 i이자 변수 B의 범주 j의 빈도},~E_{ij}\text{: 변수 A의 범주 i이자 변수 B의 범주 j의 기대도수})$$

In [28]:
# 1)빈도교차표를 작성한다.
f = pd.crosstab(claim.클레임접수여부, claim.성별, margins=False)
f

성별,0,1
클레임접수여부,Unnamed: 1_level_1,Unnamed: 2_level_1
0,139,402
1,10,449


In [29]:
# 2)독립성 검정을 수행한다.
#   :카이제곱 통계량, p-value, 자유도, 기대도수가 차례로 출력된다.
#    p-value에 의해 유의수준 99% 하에서 귀무가설을 기각하고 대립가설을 채택한다. 
#   성별과 클레임 접수 여부가 연관성을 가짐에 성별에 따라 다른 방식의 고객 서비스를 제공하여 고객의 불만을 최소화 시킬 수 있는 방안을 모색해야 한다.

from scipy.stats import chi2_contingency
chi2_contingency(f)

(106.4379065135075,
 5.9116072871971e-25,
 1,
 array([[ 80.609, 460.391],
        [ 68.391, 390.609]]))

### 동질성 검정
모집단에서 추출한 서로 독립인 표본 내에서 모집단의 한 범주형 변수의 범주별 비율이 동일한 지 검정하는 방법이다.
- 동질성 검정은 독립성 검정과 방법이 동일하나 가설 설정에만 차이가 있다.
  <center>$H_0:$ 두 표본에서 범주별 비율은 동일하다. $H_1:$ 두 표본에서 범주별 비율은 동일하지 않다.</center>

In [None]:
# https://recipesds.tistory.com/entry/%EB%8F%85%EB%A6%BD%EC%84%B1%EC%97%B0%EA%B4%80%EC%84%B1-%EB%8F%99%EC%A7%88%EC%84%B1-%EA%B2%80%EC%A0%95%EC%9D%98-%EC%B0%A8%EC%9D%B4%EC%99%80-%EA%B7%B8%EB%93%A4%EC%9D%98-%EC%A0%95%EC%B2%B4-%CF%87%C2%B2-%EC%B9%B4%EC%9D%B4%EC%8A%A4%ED%80%98%EC%96%B4-%EA%B2%80%EC%A0%95

In [35]:
# 청년층 그룹과 중장년층 그룹에 따라 구매유형 비율이 동질적인지 확인하고 마케팅 전략에 활용하고자 한다.
# 0) 청년층(1), 중장년층(2)을 갖는 범주형 변수를 생성한다.
claim['연령층'] = claim.고객_나이대.apply(lambda x: 1 if x <= 5 else 2)

In [39]:
# 0) 동질성 검정을 위해 각 연령층에서 표본을 추출한다.
sample = pd.concat([claim.query('연령층==1').sample(200, random_state=29), claim.query('연령층==2').sample(200, random_state=29)])
sample

Unnamed: 0,고객ID,이탈여부,총_매출액,방문빈도,1회_평균매출액,할인권_사용 횟수,총_할인_금액,고객등급,구매유형,클레임접수여부,...,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명,친절성,신속성,책임성,정확성,전문성,연령층
183,184,0,3569550,21,169979,16,364900,1,4,1,...,5,5,6,5,5,6,6,5,6,1
162,163,0,4796170,57,84143,23,379400,1,2,1,...,7,6,6,7,5,5,6,6,6,1
357,358,0,8898290,12,741524,24,360445,1,3,1,...,5,5,5,5,4,4,4,5,5,1
115,116,0,4160240,24,173343,12,302250,1,2,0,...,5,6,5,6,5,5,6,6,6,1
30,31,0,11879990,42,282857,12,214435,1,2,0,...,5,6,6,5,6,5,6,6,5,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
891,892,0,3260850,5,652170,1,5695,2,3,1,...,5,4,4,4,4,5,5,4,4,2
706,707,0,4068200,22,184918,20,347100,1,4,1,...,5,4,5,5,6,6,7,7,6,2
141,142,1,7651140,28,273255,30,381445,1,2,0,...,6,4,6,5,6,6,7,5,5,2
608,609,0,12392810,39,317764,13,324295,1,2,1,...,5,5,5,5,6,7,7,7,6,2


In [41]:
# 1) 빈도교차표를 작성한다.
f = pd.crosstab(sample.연령층, sample.구매유형)
f

구매유형,1,2,3,4
연령층,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,67,18,105
2,8,65,38,89


In [42]:
# 2) 동질성 검정을 수행한다.
#   :p-value에 따라 유의수준 95% 하에서 귀무가설을 기각하고 대립가설을 채택한다.
from scipy.stats import chi2_contingency
chi2_contingency(f)

(8.714970024248375,
 0.033330661685866646,
 3,
 array([[ 9., 66., 28., 97.],
        [ 9., 66., 28., 97.]]))

In [43]:
# 3) 빈도교차표를 해석해 어느 범주가 표본간 차이가 있는지 살펴본다.
#   :청년층은 집중구매형과 실용구매형에 집중된 반면 중장년층은 청년층에 비해 명품 구매형에 비중이 있다.
f

구매유형,1,2,3,4
연령층,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,67,18,105
2,8,65,38,89
