#### 범주형 데이터 분석 (카이제곱 검정)
* 카이제곱 검정: 카이제곱 분포에 기초한 통계적 분석 방법으로 관측된 도수(빈도)가 기대되는 도수(빈도)와 통계적으로 유의미하게 다른지 검정하는 방법 (= 비율검정)
* 카이제곱 검정의 종류
  |카이제곱 검정 종류|분석목적|
  |:---:|---|
  |적합도 검정|관측결과가 특정한 분포로부터 생성된 관측 값인지를 검정|
  |독립성 검정|두 범주형 변수 사이의 연관성이 있는지를 검정|
  |동질성 검정|다른 두 모집단으로부터 생성된 두 표본의 분포가 동일한지 검정|
* 적합도 검정
  - 적합도 검정의 이론적인 수행 과정
    + 빈도교차표 작성
    + 기대도수 산출
    + 카이제곱 통계량 산출 (카이제곱 통계량의 자유도 = 범주의 수 - 1)
* 독립성 검정

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
# 적합도 검정
# 귀무가설: 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매 30%, 명품 구매형 20%, 집중 구매형 40%이다.
# 연구가설: 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매 30%, 명품 구매형 20%, 집중 구매형 40%가 아니다.

df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

# 빈도교차표 생성
X = pd.crosstab(df.클레임접수여부, df.구매유형, margins=True) # margins -> 행합계와 열합계를 추가할 것인지
X

구매유형,1,2,3,4,All
클레임접수여부,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,24,197,57,263,541
1,19,120,87,233,459
All,43,317,144,496,1000


In [4]:
# 관측도수, 기대도수 도출
Ob = X.values[1,:4]
Pr = np.array([0.1,0.3,0.2,0.4])
n = X.values[1,4]
E = n*Pr
stats.chisquare(Ob,E)

Power_divergenceResult(statistic=31.582788671023955, pvalue=6.407672361002909e-07)