### 카이제곱 검정(chi-squared test)
##### 교차분석 or X^2 검정이라고도 합니다.

In [12]:
# 1. 데이터간의 연관성을 확인 할 때 사용
#  - 데이터간에 얼마나 가까운지에 대한 연관성 의미 부여
#  - 인과관계와는 무관함
#    인과관계 : 특정 데이터가 다른 데이터 값의 변화에 영향을 미치는지를 의미함


# 2. 카이제곱의 종류
#  - 일원카이제곱(chisquare)
#    : 1개 집단에서 기대값과 관찰값 사이의 유의미한 차이 확인
#  - 이원카이제곱(chi2_contigency)
#    : 두개 이상의 집단에서, 데이터 간의 연관성(차이) 확인
#    : 분석 대상의 집단 수에 의해서 "독립성 검정"과 "동질성 검정"으로 나뉜다.

### 일원카이제곱

### exe-1) 5개의 스포츠 음료에 대한 선호도에 차이가 있는지 검정
##### - 귀무가설 : 스포츠 음료에 대한 선호도 차이가 없다(p >= 0.05)
##### - 대립가설 : 스포츠 음료에 대한 선호도 차이가 있다(p < 0.05)

In [13]:
import pandas as pd
import numpy as np
import scipy.stats as stats

In [14]:
### 데이터 생성
data = pd.read_csv("./data2/drinkdata.csv")
data

# 관측도수 = 빈도(count 값)

Unnamed: 0,음료종류,관측도수
0,s1,41
1,s2,30
2,s3,51
3,s4,71
4,s5,61


In [15]:
### 검증하기
result = stats.chisquare(data["관측도수"])

print("검정 결과  = ", result)
print("검정 통계량 = %.3f,   p-value = %.3f" % (result))

# (해석)
# 1. p-value = 0.000 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 스포츠 음료에 대한 선호도 차이가 있다.

검정 결과  =  Power_divergenceResult(statistic=20.488188976377952, pvalue=0.00039991784008227264)
검정 통계량 = 20.488,   p-value = 0.000


### 이원카이제곱 - 독립성 검정

### exe-2) 교육수준과 흠연율 간의 연관성 분석
##### - 2개 집단 :교육수준, 흡연율
##### - 귀무가설 : 교육수준과 흡연율에 간에 관련성이 없다.(p >= 0.05)
##### - 대립가설 : 교육수준과 흡연율에 간에 관련성이 있다.(p < 0.05)

In [16]:
import pandas as pd
import scipy.stats as stats

In [17]:
### 데이터 생성하기 : smoke.csv  읽어들이기
data = pd.read_csv("./data2/smoke.csv")
data

Unnamed: 0,education,smoking
0,1,1
1,1,1
2,1,1
3,1,1
4,1,1
...,...,...
350,3,3
351,3,3
352,3,3
353,3,3


In [18]:
### 각 데이터 집단간 고유한 값 확인하기

# 교육수준(education) : 1(대학원졸), 2(대졸), 3(고졸)
print("education = ", data["education"].unique())

# 흡연율(smoking) : 1(골초), 2(보통), 3(노담)
print("smoking = ", data["smoking"].unique())

education =  [1 2 3]
smoking =  [1 2 3]


In [19]:
### 이원카이제곱은 두집단의 교차표를 생성합니다.
#  - 교차표 : 빈도 집계를 의미합니다.

ctab = pd.crosstab(index = data["education"],
                   columns = data["smoking"])
print(ctab)
print()

# 행 인덱스값 한글로 변경
ctab.index = ["대학원졸", "대졸", "고졸"]
print(ctab)
print()

# 컬럼 인덱스값 한글로 변경
ctab.columns = ["골초", "보통", "노담"]
print(ctab)

smoking     1   2   3
education            
1          51  92  68
2          22  21   9
3          43  28  21

smoking   1   2   3
대학원졸     51  92  68
대졸       22  21   9
고졸       43  28  21

      골초  보통  노담
대학원졸  51  92  68
대졸    22  21   9
고졸    43  28  21


In [20]:
### 검정
result = stats.chi2_contingency(ctab)

print("검정결과 = ", result)
print("검정통계량 = %.3f,   p-value = %.3f" % (result[0], result[1]))

# (해석)
# 1. p-value = 0.001 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 교육수준과 흡연 간에는 관련이 있다.
#                : 독립적이지 않다.

검정결과 =  (18.910915739853955, 0.0008182572832162924, 4, array([[68.94647887, 83.8056338 , 58.24788732],
       [16.9915493 , 20.65352113, 14.35492958],
       [30.06197183, 36.54084507, 25.3971831 ]]))
검정통계량 = 18.911,   p-value = 0.001


### exe-3) 국가전체와 지역에 대한 인종 간 인원수는 관련성이 있는지?
##### - 집단 2개 : 국가전체, 특정지역
##### - 귀무가설 : 국가전체와 지역에 대한 인종 간 인원수는 관련성이 없다.
##### - 대립가설 : 국가전체와 지역에 대한 인종 간 인원수는 관련성이 있다.

In [21]:
### 데이터 생성하기 

# 국가전체 데이터 생성
national = pd.DataFrame(["white"] * 100000 + ["hispanic"] * 60000 + 
                        ["black"] * 50000 + ["asian"] * 15000 + 
                        ["other"] * 35000)
national

Unnamed: 0,0
0,white
1,white
2,white
3,white
4,white
...,...
259995,other
259996,other
259997,other
259998,other


In [23]:
# 특정지역 데이터 생성
la = pd.DataFrame(["white"] * 600 + ["hispanic"] * 300 + 
                  ["black"] * 250 + ["asian"] * 75 + 
                  ["other"] * 150)
la

Unnamed: 0,0
0,white
1,white
2,white
3,white
4,white
...,...
1370,other
1371,other
1372,other
1373,other


In [28]:
### 교차표 만들기

# 국가전체에 대한 교차표 작성
na_table = pd.crosstab(index=national[0], columns="count")
print(na_table)
print()

# 특정지역에 대한 교차표 작성
la_table = pd.crosstab(index=la[0], columns="count")
print(la_table)

# 두개 데이터 합치기
na_table["count_la"] = la_table["count"]
na_table

col_0      count
0               
asian      15000
black      50000
hispanic   60000
other      35000
white     100000

col_0     count
0              
asian        75
black       250
hispanic    300
other       150
white       600


col_0,count,count_la
0,Unnamed: 1_level_1,Unnamed: 2_level_1
asian,15000,75
black,50000,250
hispanic,60000,300
other,35000,150
white,100000,600


In [30]:
### 검증하기(이원카이제곱에서는 교차 테이블을 넣어야 한다.)
result = stats.chi2_contingency(na_table)

print("검정결과 = ", result)
print("검정통계량 = %.3f,   p-value = %.3f" % (result[0], result[1]))

# (해석)
# 1. p-value = 0.001 < 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 국가전체와 지역에 대한 인종 간 인원수는 관련성이 있다.
#                  : 독립적이지 않다.

검정결과 =  (18.099524243141698, 0.0011800326671747886, 4, array([[1.49956958e+04, 7.93041607e+01],
       [4.99856528e+04, 2.64347202e+02],
       [5.99827834e+04, 3.17216643e+02],
       [3.49650885e+04, 1.84911526e+02],
       [1.00070780e+05, 5.29220469e+02]]))
검정통계량 = 18.100,   p-value = 0.001


### 이원카이제곱 - 동질성 검정(빈도 or 비율 데이터를 주로 사용)

### exe-4) 교육방법에 따른 교육생들의 만족도 분석
##### - 2개 집단 : 교육방법, 만족도
##### - 귀무가설 : 교육방법에 따른 교육생들의 만족도에 차이가 없다(동질이다)
##### - 대립가설 : 교육방법에 따른 교육생들의 만족도에 차이가 있다(동질하지 않다)

In [45]:
### 데이터 생성하기 : survey_method.csv 파일 읽어들이기
data = pd.read_csv("./data2/survey_method.csv")
print(data)
print()

# 만족도(survey) 고유값 조회
# 1(매우만족), 2(만족), 3(보통), 4(불만족), 5(매우불만족)
print("survey = ", data["survey"].unique())
print()

# 교육방법(method) 고유값 조회
# 1(방법1), 2(방법2), 3(방법3)
print("method = ", data["method"].unique())

      no  method  survey
0      1       1       1
1      2       2       2
2      3       3       3
3      4       1       4
4      5       2       5
..   ...     ...     ...
145  146       2       3
146  147       3       4
147  148       1       3
148  149       2       2
149  150       3       1

[150 rows x 3 columns]

survey =  [1 2 3 4 5]

method =  [1 2 3]


In [52]:
### 교차표(빈도표) 작성
# - 교육방법에 대한 만족도 교차표 만들기

ctab = pd.crosstab(index = data["method"],
                    columns = data["survey"])
print(ctab)
print()

# 행 인덱스값 한글로 변경
ctab.index = ["방법1", "방법2", "방법3"]
print(ctab)
print()

# 컬럼 인덱스값 한글로 변경
ctab.columns = ["매우만족", "만족", "보통", "불만족", "매우불만족"]
print(ctab)

survey  1   2   3   4  5
method                  
1       5   8  15  16  6
2       8  14  11  11  6
3       8   7  11  15  9

survey  1   2   3   4  5
방법1     5   8  15  16  6
방법2     8  14  11  11  6
방법3     8   7  11  15  9

     매우만족  만족  보통  불만족  매우불만족
방법1     5   8  15   16      6
방법2     8  14  11   11      6
방법3     8   7  11   15      9


In [53]:
### 검증하기
result = stats.chi2_contingency(ctab)

print("검정결과 = ", result)
print("검정통계량 = %.3f,   p-value = %.3f" % (result[0], result[1]))

# (해석)
# 1. p-value = 0.586 >= 0.05 이므로, 귀무가설 채택
# 2. 귀무가설 채택 : 교육방법에 따른 교육생들의 만족도에 차이가 없다
#                  : 동질이다.

검정결과 =  (6.544667820529891, 0.5864574374550608, 8, array([[ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ],
       [ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ],
       [ 7.        ,  9.66666667, 12.33333333, 14.        ,  7.        ]]))
검정통계량 = 6.545,   p-value = 0.586


### exe-5) 연령대별 sns 이용률 차이 검증
##### -2개 집단 : 연령, sns이용률
##### - 귀무가설 : 연령대별로 SNS 서비스 이용 현황에 차이가 없다(동질하다)
##### - 대립가설 : 연령대별로 SNS 서비스 이용 현황에 차이가 있다(동질하지 않다)

In [None]:
### 데이터 생성하기

# - snsbyage.csv 파일 읽어들이기
#   (age -> 1(청소년), 2(중년), 3(노년))

# 교차표 작성

# 검증 및 해석

In [68]:
data = pd.read_csv("./data2/snsbyage.csv")
print(data)

      age service
0       1       F
1       1       F
2       1       F
3       1       F
4       1       F
...   ...     ...
1434    3       E
1435    3       E
1436    3       E
1437    3       E
1438    3       E

[1439 rows x 2 columns]


In [69]:
print("age = ", data["age"].unique())
print()

print("service = ",data["service"].unique())


age =  [1 2 3]

service =  ['F' 'T' 'K' 'C' 'E']


In [64]:
ctab = pd.crosstab(index = data["age"],
                    columns = data["service"])
print(ctab)
print()

ctab.index = ["청소년", "중년", "노년"]
print(ctab)

service    C   E    F    K    T
age                            
1         81  16  207  111  117
2        109  15  107  236  104
3         32  17   78  133   76

service    C   E    F    K    T
청소년       81  16  207  111  117
중년       109  15  107  236  104
노년        32  17   78  133   76


In [73]:
result = stats.chi2_contingency(ctab)
print("검정결과 = ", result)
print("검정통계량 = %.3f,   p-value = %.3f" % (result[0], result[1]))

# (해석)
# 1. p-value = 0.000 >= 0.05 이므로, 귀무가설 기각
# 2. 대립가설 채택 : 연령대별로 SNS 서비스 이용 현황에 차이가 있다.
#                  : 동질하지 않다.

검정결과 =  (102.75202494484225, 1.1679064204212775e-18, 8, array([[ 82.07366227,  17.74565671, 144.9228631 , 177.45656706,
        109.80125087],
       [ 88.09034051,  19.04656011, 155.54690757, 190.46560111,
        117.85059069],
       [ 51.83599722,  11.20778318,  91.53022933, 112.07783183,
         69.34815844]]))
검정통계량 = 102.752,   p-value = 0.000
