# 카이제곱 검정(chi-squared test)
- 교차분석 or X^2검정


<b> 1. 데이터간의 연관성을 확인할 때 사용
- 데이터간에 얼마나 가까운지에 대한 연관성 의미 부여
- 인과관계와는 무관함(인과관계란? 특정 데이터가 다른 데이터값의 변화에 영향을 미치는지)


<b> 2. 카이제곱 종류
- 일원카이제곱(chisquare)
: 1개 집단에서 기대값과 관찰값 사이의 유의미한 차이 확인
- 이원카이제곱(chi2_contigency)
: 두개 이상 집단에서 데이터 간의 연관성(차이) 확인 <br>
　　　　 　 　　　 　　 　　　　:분석 대상의 집단수에 의해서 '독립성 검정'과 '동질성 검정'으로 나뉨

## 일원카이제곱

### exe1) 5개의 스포츠 음료에 대한 선호도에 차이가 있는지 검정
- H0 : 스포츠 음료에 대한 선호도 차이가 없다.
- H1 : 스포츠 음료에 대한 선호도 차이가 있다.

In [2]:
import pandas as pd
import numpy as np
import scipy.stats as stats

#### 데이터 불러오기

In [1]:
drink = pd.read_csv('./data2/drinkdata.csv')
drink

Unnamed: 0,음료종류,관측도수
0,s1,41
1,s2,30
2,s3,51
3,s4,71
4,s5,61


#### 검증하기

In [3]:
result = stats.chisquare(drink['관측도수'])

print('검정 결과 = ', result)
print('검정 통계량 = %.3f, p-value = %.3f' %(result))

# 1. p-value = 0.000 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 스포츠 음료에 대한 선호도 차이가 있다고 할 수 있다.

검정 결과 =  Power_divergenceResult(statistic=20.488188976377952, pvalue=0.00039991784008227264)
검정 통계량 = 20.488, p-value = 0.000


## 이원카이제곱 - 독립성 검정

### exe2) 교육수준과 흡연율 간의 연관성 분석
- H0 : 교육수준과 흡연율 간에 관련성이 없다.(독립적이다)
- H1 : 교육수준과 흡연율 간에 관련성이 있다.

In [4]:
import pandas as pd
import scipy.stats as stats

#### 데이터 불러오기

In [5]:
smoke = pd.read_csv('./data2/smoke.csv')
smoke

Unnamed: 0,education,smoking
0,1,1
1,1,1
2,1,1
3,1,1
4,1,1
...,...,...
350,3,3
351,3,3
352,3,3
353,3,3


#### 데이터 확인

In [9]:
# 각 데이터 집단간 고유한 값 확인

# 교육수준(education) : 1(대학원졸), 2(대졸), 3(고졸)
print('education = ', smoke['education'].unique())

# 흡연정도(smoking) : 1(골초), 2(보통), 3(노담)
print('smoking = ', smoke['smoking'].unique())

education =  [1 2 3]
smoking =  [1 2 3]


#### 교차표 생성

In [13]:
## 이원카이제곱은 두집단의 교차표를 생성합니다.
#  - 교차표 : 빈도 집계를 의미함

ctab = pd.crosstab(index = smoke['education'],
                   columns = smoke['smoking'])
print(ctab)
print()

# 행 인덱스값 한글로 변경
ctab.index = ['대학원졸', '대졸', '고졸']
print(ctab)
print()

# 컬럼 인덱스값 한글로 변경
ctab.columns = ['골초', '보통', '노담']
ctab

smoking     1   2   3
education            
1          51  92  68
2          22  21   9
3          43  28  21

smoking   1   2   3
대학원졸     51  92  68
대졸       22  21   9
고졸       43  28  21



Unnamed: 0,골초,보통,노담
대학원졸,51,92,68
대졸,22,21,9
고졸,43,28,21


#### 검증하기

In [17]:
result = stats.chi2_contingency(ctab)

print('검정 결과 = ', result)
print('검정 통계량 = %.3f, p-value = %.3f' %(result[0], result[1]))

# 1. p-value = 0.001 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 교육수준과 흡연율 간에 관련성(연관성)이 있다. (독립적이지 않다)

검정 결과 =  (18.910915739853955, 0.0008182572832162924, 4, array([[68.94647887, 83.8056338 , 58.24788732],
       [16.9915493 , 20.65352113, 14.35492958],
       [30.06197183, 36.54084507, 25.3971831 ]]))
검정 통계량 = 18.911, p-value = 0.001


### exe3) 국가전체와 지역에 대한 인종 간 인원수는 관련성이 있는가?
- H0 : 국가전체와 특정지역에 대한 인종간 인원수는 관련성이 없다.
- H1 : 국가전체와 특정지역에 대한 인종간 인원수는 관련성이 있다.

#### 데이터 생성

In [18]:
# 국가전체 데이터 생성
national = pd.DataFrame(['white']*100000 + ['hispanic']*60000 + 
                        ['black']*50000 + ['asian']*15000 + 
                        ['other']*35000)
national

Unnamed: 0,0
0,white
1,white
2,white
3,white
4,white
...,...
259995,other
259996,other
259997,other
259998,other


In [19]:
# 특정지역 데이터 생성
la = pd.DataFrame(['white']*600 + ['hispanic']*300 + 
                        ['black']*250 + ['asian']*75 + 
                        ['other']*150)
la

Unnamed: 0,0
0,white
1,white
2,white
3,white
4,white
...,...
1370,other
1371,other
1372,other
1373,other


#### 교차표 생성

In [23]:
# 국가전체에 대한 빈도표 생성
na_table = pd.crosstab(index = national[0],
                       columns = 'count')
print(na_table)
print()

# 특정지역에 대한 빈도표 생성
la_table = pd.crosstab(index = la[0],
                       columns = 'count')
print(la_table)

# 국가전체와 특정지역에 대한 교차표 생성
na_table['count_la'] = la_table['count']
na_table

col_0      count
0               
asian      15000
black      50000
hispanic   60000
other      35000
white     100000

col_0     count
0              
asian        75
black       250
hispanic    300
other       150
white       600


col_0,count,count_la
0,Unnamed: 1_level_1,Unnamed: 2_level_1
asian,15000,75
black,50000,250
hispanic,60000,300
other,35000,150
white,100000,600


#### 검증하기

In [24]:
result = stats.chi2_contingency(na_table)

print('검정 결과 = ', result)
print('검정 통계량 = %.3f, p-value = %.3f' %(result[0], result[1]))

# 1. p-value = 0.001 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 국가전체와 특정지역에 대한 인종간 인원수는 관련성이 있다

검정 결과 =  (18.099524243141698, 0.0011800326671747886, 4, array([[1.49956958e+04, 7.93041607e+01],
       [4.99856528e+04, 2.64347202e+02],
       [5.99827834e+04, 3.17216643e+02],
       [3.49650885e+04, 1.84911526e+02],
       [1.00070780e+05, 5.29220469e+02]]))
검정 통계량 = 18.100, p-value = 0.001


## 이원카이제곱 - 동질성 검정(빈도 or 비율 데이터를 주로 사용)

### exe4) 교육방법에 따른 교육생들의 만족도 분석
- H0 : 교육방법에 따른 교육생들의 만족도에 차이가 없다. (동질이다)
- H1 : 교육방법에 따른 교육생들의 만족도에 차이가 있다. (동질하지 않다)

#### 데이터 불러오기

In [25]:
data = pd.read_csv('./data2/survey_method.csv')
data

Unnamed: 0,no,method,survey
0,1,1,1
1,2,2,2
2,3,3,3
3,4,1,4
4,5,2,5
...,...,...,...
145,146,2,3
146,147,3,4
147,148,1,3
148,149,2,2


In [29]:
# method(교육방법): 1(방법1), 2(방법2), 3(방법3)
print('method = ', data['method'].unique())

# survey(만족도): 1(매우만족), 2(만족), 3(보통), 4(불만족), 5(매우불만족)
print('survey = ', data['survey'].unique())

method =  [1 2 3]
survey =  [1 2 3 4 5]


#### 교차표 작성

In [31]:
# 교육방법에 대한 만족도이므로 index에는 method, columns에는 survey
table = pd.crosstab(data['method'], data['survey'])
table.index = ['방법1', '방법2', '방법3']
table.columns = ['매우만족', '만족', '보통', '불만족', '매우불만족']
table

Unnamed: 0,매우만족,만족,보통,불만족,매우불만족
방법1,5,8,15,16,6
방법2,8,14,11,11,6
방법3,8,7,11,15,9


#### 검증하기

In [32]:
result = stats.chi2_contingency(table)

print('검정 결과 = ', result)
print('검정 통계량 = %.3f, p-value = %.3f' %(result[0], result[1]))

# 1. p-value = 0.586 > 0.05 이므로, 귀무가설 기각할 수 없음
# 2. 귀무가설 채택 : 교육방법에 따른 교육생들의 만족도에 차이가 없다. (동질이다)

검정 결과 =  (6.544667820529891, 0.5864574374550608, 8, array([[ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ],
       [ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ],
       [ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ]]))
검정 통계량 = 6.545, p-value = 0.586


### exe5) 연령대별 sns 이용률 차이 검증
- H0 : 연령대별로 sns서비스 이용 현황에 차이가 없다. (동질이다)
- H1 : 연령대별로 sns서비스 이용 현황에 차이가 있다. (동질하지 않다)

#### 데이터 불러오기

In [33]:
sns_age = pd.read_csv('./data2/snsbyage.csv')
sns_age

Unnamed: 0,age,service
0,1,F
1,1,F
2,1,F
3,1,F
4,1,F
...,...,...
1434,3,E
1435,3,E
1436,3,E
1437,3,E


In [34]:
# age(연령대): 1(청소년), 2(중년), 3(노년)
print('age = ', sns_age['age'].unique())

# service() : 
print('service = ', sns_age['service'].unique())

age =  [1 2 3]
service =  ['F' 'T' 'K' 'C' 'E']


#### 교차표 작성

In [36]:
table = pd.crosstab(sns_age['age'], sns_age['service'])
table.index = ['청소년', '중년', '노년']
table

service,C,E,F,K,T
청소년,81,16,207,111,117
중년,109,15,107,236,104
노년,32,17,78,133,76


#### 검증하기

In [37]:
result = stats.chi2_contingency(table)

print('검정 결과 = ', result)
print('검정 통계량 = %.3f, p-value = %.3f' %(result[0], result[1]))

# 1. p-value = 0.000 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 연령대별로 SNS 서비스 이용 현황에 차이가 있다. (동질하지 않다)

검정 결과 =  (102.75202494484225, 1.1679064204212775e-18, 8, array([[ 82.07366227,  17.74565671, 144.9228631 , 177.45656706,
        109.80125087],
       [ 88.09034051,  19.04656011, 155.54690757, 190.46560111,
        117.85059069],
       [ 51.83599722,  11.20778318,  91.53022933, 112.07783183,
         69.34815844]]))
검정 통계량 = 102.752, p-value = 0.000
