### 제 3유형 카이제곱 검정
분석 Case 
- Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
- Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?    

가설 검정 순서
1. 가설 설정
2. 유의수준 확인
3. 검정 실시(통계량, p-value 확인) + 기대값 확인
4. 귀무가설 기각여부 결정(채택/기각)    

예제문제
Case1. 적합도 검정 - 각 범주에 속할 확률이 같은지?    

문제 1-1    
랜덤박스에 상품 A,B,C,D가 들어있다.    
다음은 랜덤박스에서 100번 상품을 꺼냈을 떄의 상품 데이터라고 할 때    
상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.    
- 귀무가설(H0) : 상품이 동일한 비율로 들어있다.
- 대립가설(H1) : 상품이 동일한 비율로 들어있지 않다.

In [1]:
import pandas as pd 
import numpy as np
from scipy.stats import chisquare, chi2_contingency

In [None]:
# 데이터 생성
row1 = [30, 20, 15, 35]

df = pd.DataFrame([row1], columns=['A','B','C','D'])

df

In [2]:
# 관측빈도와 기대빈도 구하기
f_obs = [30,20,15,35]
f_exp = [100*0.25, 100*0.25, 100*0.25,100*0.25]

statistic, pvalue = chisquare(f_obs=f_obs, f_exp=f_exp)

print(statistic, pvalue)

if pvalue>0.05:
    print('A,B,C,D가 동일한 비율로 들어있다')
else : 
    print('A,B,C,D가 동일한 비율로 들어있지 않다')

10.0 0.01856613546304325
A,B,C,D가 동일한 비율로 들어있지 않다


문제 1-2    
    
랜덤박스에 상품 A,B,C가 들어있다.    
    
다음은 랜덤박스에서 150번 상품을 꺼냇을 떄의 상품 데이터라고 할 때    
    
상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정 해보시오 

In [4]:
# 데이터 생성
row1 = [50,25,75]

df= pd.DataFrame([row1],columns=['A','B','C'])

df

Unnamed: 0,A,B,C
0,50,25,75


In [5]:
# 카이제곱 검정 실시
f_obs = [50,25,75]
f_exp = [150*0.3,150*0.15,150*0.55]

statistics, pvalue = chisquare(f_obs=f_obs,f_exp=f_exp)

print(pvalue)

if pvalue>0.05 : 
    print('A,B,C가 해당 비율로 들어있다')
else : 
    print('A,B,C가 해당 비율로 들어있지 않다')

0.46880153914023537
A,B,C가 해당 비율로 들어있다


문제 2-1     
    
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오
    
- 귀무가설(H0) : 연령대와 먹는 아이스크림 종류는 서로 관련이 없다.   
- 대립가설(H1) : 연령대와 먹는 아이스크림 종류는 서로 관련이 있다.

In [7]:
# 데이터 생성

row1, row2 = [200, 190, 250], [220, 250, 300]

df = pd.DataFrame([row1, row2], columns=['딸기','초코','바닐라'], index=['10대','20대'])

df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [8]:
# chi2_contingency 항목 순서
# 검정통계량, p-value, 자유도, 기대값 

statistic, pvalue, dof, expected = chi2_contingency(df)

print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,2))

if pvalue>0.05 :
    print('귀무가설 채택 - 연령대와 먹는 아이스크림 종류는 관련이 없다 (영향을 주지 않는다)')
else:
    print('귀무가설 기각 - 연령대와 먹는 아이스크림 종류는 관련이 있다 (영향을 준다)')


1.708360126075226
0.4256320394874311
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]
귀무가설 채택 - 연령대와 먹는 아이스크림 종류는 관련이 없다 (영향을 주지 않는다)
