# 카이제곱 검정
### Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
### Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?

✅ 가설검정 순서(중요!!)
1. 가설설정
2. 유의수준 확인
3. 검정실시(통계량, p-value 확인, **기대빈도 확인**)
4. 귀무가설 기각여부 결정(채택/기각)

# Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
문제 1-1
랜덤 박스에 상품 A,B,C,D가 들어있다.
다음은 랜덤박스에서 100번 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats

In [48]:
# 데이터 생성
row1 = [30, 20, 15, 35]
df = pd.DataFrame([row1], columns=['A','B','C', 'D'])
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [49]:
#-- 1. 가설검정
H0 = "A, B, C, D가 동일한 비율로 들어있다."
H1 = "A, B, C, D가 동일한 비율로 들어있지 않다."

#-- 2. 유의수준 Alpha 설정
alpha = 0.05

In [50]:
#-- 3. 검정 실기(검정통계량, P_value, 기대값)
#-- 관측값, 기대값 설정
f_obs = row1
f_exp = [] #-- [25, 25, 25, 25]

sum = 0
for row in row1:
  sum += row

for i in range(len(f_obs)):
  f_exp.append((sum/len(f_obs)))

statics, p_value = stats.chisquare(f_obs = f_obs, f_exp = f_exp)

print(statics.round(4), p_value.round(4))

#-- 귀무가설 채택/기각 결정

if p_value > alpha:
  print("귀무가설 채택")
  print(H0)
else:
  print("귀무가설 기각")
  print(H1)

10.0 0.0186
귀무가설 기각
A, B, C, D가 동일한 비율로 들어있지 않다.


# 2. 랜덤 박스에 상품 A, B, C가 들어있다.
다음은 랜덤박스에서 150번 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.


In [51]:
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C'])
df

#-- 귀무가설 설정
H0 = "A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있다."
H1 = "A 30%, B 15%, C 55% 비율로 들어있다고 할 수 없다."
alpha = 0.05

In [54]:
#-- 검정통계량, P_value 계산
# 관측값, 기댓값
f_obs = [50,25,75]
sum = 0
for v in f_obs:
  sum += v

f_exp = [(sum * 0.3), (sum*0.15), (sum*0.55)]

statics, p_value = stats.chisquare(f_obs = f_obs, f_exp = f_exp)

print(statics.round(4), p_value.round(4))

#-- 귀무가설 채택/기각 결정

if p_value > alpha:
  print("귀무가설 채택")
  print(H0)
else:
  print("귀무가설 기각")
  print(H1)

1.5152 0.4688
귀무가설 채택
A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있다.


# Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?
# 문제 2-1
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오.

In [55]:
# 데이터 생성
row1, row2 = [200, 190, 250], [220, 250, 300]
df = pd.DataFrame([row1, row2], columns=['딸기','초코','바닐라'], index=['10대', '20대'])
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [56]:
#-- 1. 가설 및 유의수준 설정
H0 = "연령대에 따라 먹는 아이스크림의 차이가 없다(독립적이다)"
H1 = "연령대에 따라 먹는 아이스크림의 차이가 있다(독립적이지 않다)"
alpha = 0.05

In [64]:
#-- 2. 통계값 계산(통계량, p_value, 자유도, 기댓값)
from scipy.stats import chi2_contingency

statistic, p_value, dof, exp = chi2_contingency([row1, row2])
# print([row1, row2]) 연령대별 아이스크림 소비

print(statistic.round(4), p_value.round(4))
print(dof) # 자유도 = (행-1)*(열-1)
print(np.round(exp, 2) ) # 반올림하고 싶다면 np.round()

1.7084 0.4256
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]


In [65]:
#-- 3. 귀무가설 채택/기각 결정
if p_value > alpha:
  print("귀무가설 채택")
  print(H0)
else:
  print("귀무가설 기각")
  print(H1)

귀무가설 채택
연령대에 따라 먹는 아이스크림의 차이가 없다(독립적이다)


# ★ tip : pd.crosstab() 사용방법
# (Case1) 만약 데이터가 아래와 같이 주어진다면?

In [81]:
df = pd.DataFrame({
    '아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'],
    '연령' : ['10대','10대','10대','20대','20대','20대'],
    '인원' : [200,190,250,220,250,300]
})
df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


In [83]:
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc='sum')
table
# df1

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,200,250,190
20대,220,300,250


# 문제 2-2
타이타닉에 데이터에서 성별(sex)과 생존여부(survived) 변수간 독립성 검정을 실시하시오.

In [85]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as stats

In [108]:
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [111]:
table = pd.crosstab(df['survived'], df['sex'])
table

sex,female,male
survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,81,468
1,233,109


In [112]:
#-- 가설 및 유의 수준 설정
H0 = "성별과 생존 여부는 서로 독립적이다"
H1 = "성별과 생존 여부는 서로 독립적이지 않다."
alpha = 0.05

In [115]:
#-- 검정, p_val, 자유도, 기댓값

st_value, p_value, dof, exp = stats.chi2_contingency(table)
print(st_value.round(4), p_value.round(4))
print(dof)
print(exp)

260.717 0.0
1
[[193.47474747 355.52525253]
 [120.52525253 221.47474747]]


In [117]:
#-- 귀무가설 채택/기각 결정
if p_value > alpha:
  print("귀무가설 채택")
  print(H0)
else:
  print("귀무가설 기각")
  print(H1)

귀무가설 기각
성별과 생존 여부는 서로 독립적이지 않다.
