# 제 3유형 - 카이제곱 검정

## ✅ 분석 Case
### Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
### Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?

### ✅ 가설검정 순서(중요!)
> 1. 가설 설정
> 2. 유의수준 확인
> 3. 검정실시(통계량, p-value 확인, 기대빈도 확인)
> 4. 귀무가설 기각여부 결정(채택/기각)

#### 예제 문제           
#### Case1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
##### 문제 1-1
랜덤박스에 상품 A, B, C, D가 들어있다.      
다음은 랜덤박스에서 100번 상품을 꺼냈을 때의 상품 데이터라고 할 때      
상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [95]:
import pandas as pd
import numpy as np

In [96]:
# 데이터 생성
row1 = [30, 20, 15, 35]
df = pd.DataFrame([row1], columns=['A','B','C', 'D']) 
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


##### 1. 가설 설정
H0 : 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어 있다.      
H1 : 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어 있지 않다.

##### 2. 유의수준 확인
문제에서 0.05로 제공

##### 3. 검정실시(통계량, p-value 확인, 기대빈도 확인)

In [97]:
import scipy.stats as stats
from scipy.stats import chisquare
# chisquare(f_obs=f_obs, f_exp=f_exp)       # 관측값, 기대값

# 관측값 (빈도)과 기대값 (빈도) 구하기 (각각 구해서 넣어줘야함)
f_obs = [30, 20, 15, 35]
f_exp = [25, 25, 25, 25]

statistic, pvalue = stats.chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic)
print(pvalue)

10.0
0.01856613546304325


##### 4. 귀무가설 기각여부 결정
p-value=0.018로 유의수준 0.05보다 작기 때문에 귀무가설을 기각한다.      
즉, 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어있지 않다고 할 수 있다.

#### 문제 1-2
랜덤박스에 상품 A, B, C가 들어있다.     
다음은 랜덤박스에서 150번 상품을 꺼냈을 때의 상품 데이터라고 할 때      
상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.

In [98]:
import pandas as pd
import numpy as np

In [99]:
# 데이터 생성
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C']) 
df

Unnamed: 0,A,B,C
0,50,25,75


##### 1. 가설 설정
H0 : 랜덤박스에 상품이 A 30%, B 15%, C 55%의 비율로 들어있다.           
H1 : 랜덤박스에 상품이 A 30%, B 15%, C 55%의 비율로 들어있지 않다.

##### 2. 유의수준 확인
0.05 수준

##### 3. 검정실시(통계량, p-value 확인, 기대빈도 확인)

In [100]:
import scipy.stats as stats


f_obs = [50, 25, 75]
f_exp = [45, 22.5, 82.5]
# a = 150*0.3
# b = 150*0.15
# c = 150*0.55
# f_exp = [a, b, c]

statistic, pvalue = stats.chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic)
print(pvalue)

1.5151515151515151
0.46880153914023537


##### 4. 귀무가설 기각여부 결정
p-value=0.469로 유의수준 0.05보다 크므로 귀무가설을 채택한다.           
즉 랜덤박스에 상품이 A 30%, B 15%, C 55%의 비율로 들어있다고 할 수 있다.

#### Case2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?
#### 문제 2-1
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오.

In [101]:
import pandas as pd
import numpy as np

In [102]:
# 데이터 생성
row1, row2 = [200, 190, 250], [220, 250, 300]
df = pd.DataFrame([row1, row2], columns=['딸기','초코','바닐라'], index=['10대', '20대']) 
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


##### 1. 가설 설정
H0 : 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다. (두 변수는 서로 독립이다.)             
H1 : 연령대와 먹는 아이스크림의 종류는 서로 관련이 있다. (두 변수는 서로 독립이 아니다.)

##### 2. 유의수준 확인
유의수준 5%

##### 3. 검정실시(통계량, p-value 확인, 기대빈도 확인)

In [103]:
df.iloc[0]

딸기     200
초코     190
바닐라    250
Name: 10대, dtype: int64

In [104]:
import scipy.stats as stats
statistic, pvalue, dof, expected = stats.chi2_contingency(df)
# statistic, pvalue, dof, expected = stats.chi2_contingency([df.iloc[0], df.iloc[1]])

print("statistic : ", statistic)
print(pvalue)
print(dof)
print(expected)
# print(stats.chi2_contingency([df.iloc[0], df.iloc[1]]))

statistic :  1.708360126075226
0.4256320394874311
2
[[190.63829787 199.71631206 249.64539007]
 [229.36170213 240.28368794 300.35460993]]


##### 4. 귀무가설 기각여부 결정
p-value=0.425로 유의수준 0.05보다 크므로 귀무가설을 채택한다.           
즉, 연령대와 먹는 아이스크림의 종류는 서로 연관이 없다고 할 수 있다.

#### (추가) 만약 데이터 형태가 다를 경우?

In [105]:
# ★ tip : pd.crosstab() 사용방법
# (Case1) 만약 데이터가 아래와 같이 주어진다면? 
df = pd.DataFrame({
    '아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'], 
    '연령' : ['10대','10대','10대','20대','20대','20대'],
    '인원' : [200,190,250,220,250,300]
    })
df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


위의 형태라면 crosstab을 사용하여 테이블 교차표를 만들어야함.

In [106]:
# pd.crosstab(index =  , columns = , values = , aggfunc=sum)
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum) 
table
# 주의 : index, columns에 순서를 꼭 확인하기
# print(table)

  table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)


아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,200,250,190
20대,220,300,250


교차표 만든 뒤 검정 실시하면 됨

In [107]:
import scipy.stats as stats
print(stats.chi2_contingency(table))

Chi2ContingencyResult(statistic=1.708360126075226, pvalue=0.4256320394874311, dof=2, expected_freq=array([[190.63829787, 249.64539007, 199.71631206],
       [229.36170213, 300.35460993, 240.28368794]]))


In [108]:
# (🔺 중요! Case2) 만약 데이터가 아래와 같이 주어진다면? # (이해를 위한 참고용입니다, 빈도수 카운팅)
df = pd.DataFrame({
    '아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'],
    '연령' : ['10대','10대','10대','20대','20대','20대']
})
df

Unnamed: 0,아이스크림,연령
0,딸기,10대
1,초코,10대
2,바닐라,10대
3,딸기,20대
4,초코,20대
5,바닐라,20대


In [111]:
# 빈도수를 카운트 해야 할 때도 crosstab을 사용하여 교차표를 만들고 검정 실시
table2 = pd.crosstab(df['연령'], df['아이스크림'])
table2

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,1,1,1
20대,1,1,1


#### 문제 2-2
타이타닉 데이터에서 성별(sex)와 생존여부(survived) 변수간 독립성 검정을 실시하시오.

In [112]:
import seaborn as sns
df = sns.load_dataset("titanic")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [113]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


성별 컬럼과 생존 컬럼을 크로스탭을 이용하여 교차표를 만든 뒤 검정 진행

In [114]:
table = pd.crosstab(df['sex'], df['survived'])
table

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


##### 1. 가설 설정
H0 : 성별과 생존여부는 서로 관련이 없다. (두 변수는 서로 독립이다.)         
H1 : 성별과 생존여부는 서로 관련이 있다. (두 변수는 서로 독립이 아니다.)

##### 2. 유의수준 확인
유의수준 5%

##### 3. 검정실시(통계량, p-value 확인, 기대빈도 확인)

In [117]:
import scipy.stats as stats
print(stats.chi2_contingency(table))
statistic, pvalue, dof, expected = stats.chi2_contingency(table)
print("p-value : ", round(pvalue, 4))

Chi2ContingencyResult(statistic=260.71702016732104, pvalue=1.1973570627755645e-58, dof=1, expected_freq=array([[193.47474747, 120.52525253],
       [355.52525253, 221.47474747]]))
p-value :  0.0


##### 4. 귀무가설 기각여부 결정
p-value=0.0으로 유의수준 0.05보다 작으므로 귀무가설을 기각            
즉, 성별과 생존여부는 서로 관련이 있다고 할 수 있다.

-----
카이제곱에서 검정통계량(카이제곱 값)은 관측빈도와 기대빈도의 차이가 커질수록 카이제곱 값도 커진다.      
##### 데이터를 변경해보며 이해하기

In [118]:
# 임의 데이터 생성
sex, survived = [160, 160], [250, 220]
table = pd.DataFrame([sex, survived], columns=['0','1'], index=['female', 'male']) 
print(table)

          0    1
female  160  160
male    250  220


위의 원본 데이터와 비교했을 때 관측 빈도와 기대빈도의 차이가 덜 남

In [124]:
# 3. 검정 시행
import scipy.stats as stats
print(stats.chi2_contingency(table))
print(stats.chi2_contingency(table).pvalue)

Chi2ContingencyResult(statistic=0.6541895872879862, pvalue=0.41861876333789727, dof=1, expected_freq=array([[166.07594937, 153.92405063],
       [243.92405063, 226.07594937]]))
0.41861876333789727


검정통계량이 작아진다 = p-value가 커진다 = 귀무가설 채택

#### 4. 귀무가설 기각 여부
p-value = 0.4186으로 유의수준 0.05보다 크므로 귀무가설 채택         
즉, 성별과 생존여부는 서로 관련이 없다고 할 수 있다.