#### 범주형 데이터 분석 (카이제곱 검정)
* 카이제곱 검정: 카이제곱 분포에 기초한 통계적 분석 방법으로 관측된 도수(빈도)가 기대되는 도수(빈도)와 통계적으로 유의미하게 다른지 검정하는 방법 (= 비율검정)
* 카이제곱 검정의 종류
  |카이제곱 검정 종류|분석목적|
  |:---:|---|
  |적합도 검정|관측결과가 특정한 분포로부터 생성된 관측 값인지를 검정|
  |독립성 검정|두 범주형 변수 사이의 연관성이 있는지를 검정|
  |동질성 검정|다른 두 모집단으로부터 생성된 두 표본의 분포가 동일한지 검정|
* 적합도 검정
  - 적합도 검정의 이론적인 수행 과정
    + 빈도교차표 작성
    + 기대도수 산출
    + 카이제곱 통계량 산출 (카이제곱 통계량의 자유도 = 범주의 수 - 1)
* 독립성 검정
  - 독립성 검정의 이론적인 수행 과정
    + 두 가지 명목변수 빈도교차표 작성
    + 기대도수 빈도교차표 작성
    + 카이제곱 통계량 산출 (카이제곱 통계량의 자유도는 (행의 수 -1) X (열의 수 - 1))
* 동질성 검정
  - 동질성 검정과 독립성 검정은 분석의 기술적 방법은 완전히 동일
  - 그러나 사용목적에 따라 자료의 추출방법이나 문제의 접근방식과 해석이 달라지는 것이라고 이해하는 것이 바람직함
  - 독립성 검정: 하나의 표본에서 두 범주형 변수 A와 B의 독립성 검정
  - 동질성 검정: 서로 다른 독립적인 표본에서 공통된 하나의 범주형 변수의 비율이 동질적인지를 검정

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
# 적합도 검정

# 귀무가설: 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매 30%, 명품 구매형 20%, 집중 구매형 40%이다.
# 연구가설: 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매 30%, 명품 구매형 20%, 집중 구매형 40%가 아니다.

df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

# 빈도교차표 생성
X = pd.crosstab(df.클레임접수여부, df.구매유형, margins=True) # margins -> 행합계와 열합계를 추가할 것인지
X

구매유형,1,2,3,4,All
클레임접수여부,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,24,197,57,263,541
1,19,120,87,233,459
All,43,317,144,496,1000


In [3]:
# 관측도수, 기대도수 도출
Ob = X.values[1,:4]
Pr = np.array([0.1,0.3,0.2,0.4])
n = X.values[1,4]
E = n*Pr
stats.chisquare(Ob,E)

Power_divergenceResult(statistic=31.582788671023955, pvalue=6.407672361002909e-07)

In [4]:
# 독립성 검정

# 귀무가설: 클레임 접수 여부와 성별은 연관성이 없다.
# 연구가설: 클레임 접수 여부와 성별은 연관성이 있다.

X = pd.crosstab(df.성별, df.클레임접수여부, margins=False)
stats.chi2_contingency(X)

(106.43790651350751,
 5.911607287197053e-25,
 1,
 array([[ 80.609,  68.391],
        [460.391, 390.609]]))

In [5]:
# 동질성 검정

# 귀무가설: 청년층과 중장년층의 구매 유형 비율은 동일하다.
# 연구가설: 청년층과 중장년층의 구매 유형 비율은 동일하지 않다.

# 청년층, 중장년층 전처리
df['고객연령대'] = ""
df.고객연령대[df.고객_나이대 == 1] = "1"
df.고객연령대[df.고객_나이대 == 2] = "1"
df.고객연령대[df.고객_나이대 == 3] = "1"
df.고객연령대[df.고객_나이대 == 4] = "1"
df.고객연령대[df.고객_나이대 == 5] = "1"
df.고객연령대[df.고객_나이대 == 6] = "2"
df.고객연령대[df.고객_나이대 == 7] = "2"
df.고객연령대[df.고객_나이대 == 8] = "2"
df.고객연령대[df.고객_나이대 == 9] = "2"

# 두 모집단 랜덤표본추출
df1 = df.loc[df.고객연령대=='1']
df2 = df.loc[df.고객연령대=='2']
df1_sample = df1.sample(200, random_state = 29)
df2_sample = df2.sample(200, random_state = 29)
df3 = df1_sample.append(df2_sample)

X = pd.crosstab(df3.고객연령대, df.구매유형, margins=False)
stats.chi2_contingency(X)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.고객연령대[df.고객_나이대 == 1] = "1"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.고객연령대[df.고객_나이대 == 2] = "1"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.고객연령대[df.고객_나이대 == 3] = "1"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.고객연령대[df.고객_나이대 == 4] = "1"
A value is trying to be set on a copy of a s

(8.714970024248375,
 0.033330661685866646,
 3,
 array([[ 9., 66., 28., 97.],
        [ 9., 66., 28., 97.]]))

In [6]:
X

구매유형,1,2,3,4
고객연령대,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,67,18,105
2,8,65,38,89
