### 제 3유형 카이제곱 검정
분석 Case 
- Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
- Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?    

가설 검정 순서
1. 가설 설정
2. 유의수준 확인
3. 검정 실시(통계량, p-value 확인) + 기대값 확인
4. 귀무가설 기각여부 결정(채택/기각)    

예제문제
Case1. 적합도 검정 - 각 범주에 속할 확률이 같은지?    

문제 1-1    
랜덤박스에 상품 A,B,C,D가 들어있다.    
다음은 랜덤박스에서 100번 상품을 꺼냈을 떄의 상품 데이터라고 할 때    
상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.    
- 귀무가설(H0) : 상품이 동일한 비율로 들어있다.
- 대립가설(H1) : 상품이 동일한 비율로 들어있지 않다.

In [5]:
import pandas as pd 
import numpy as np
from scipy.stats import chisquare, chi2_contingency

In [6]:
# 데이터 생성
row1 = [30, 20, 15, 35]

df = pd.DataFrame([row1], columns=['A','B','C','D'])

df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [7]:
# 관측빈도와 기대빈도 구하기
f_obs = [30,20,15,35]
f_exp = [100*0.25, 100*0.25, 100*0.25,100*0.25]

statistic, pvalue = chisquare(f_obs=f_obs, f_exp=f_exp)

print(statistic, pvalue)

if pvalue>0.05:
    print('A,B,C,D가 동일한 비율로 들어있다')
else : 
    print('A,B,C,D가 동일한 비율로 들어있지 않다')

10.0 0.01856613546304325
A,B,C,D가 동일한 비율로 들어있지 않다


문제 1-2    
    
랜덤박스에 상품 A,B,C가 들어있다.    
    
다음은 랜덤박스에서 150번 상품을 꺼냇을 떄의 상품 데이터라고 할 때    
    
상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정 해보시오 

In [8]:
# 데이터 생성
row1 = [50,25,75]

df= pd.DataFrame([row1],columns=['A','B','C'])

df

Unnamed: 0,A,B,C
0,50,25,75


In [9]:
# 카이제곱 검정 실시
f_obs = [50,25,75]
f_exp = [150*0.3,150*0.15,150*0.55]

statistics, pvalue = chisquare(f_obs=f_obs,f_exp=f_exp)

print(pvalue)

if pvalue>0.05 : 
    print('A,B,C가 해당 비율로 들어있다')
else : 
    print('A,B,C가 해당 비율로 들어있지 않다')

0.46880153914023537
A,B,C가 해당 비율로 들어있다


문제 2-1     
    
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오
    
- 귀무가설(H0) : 연령대와 먹는 아이스크림 종류는 서로 관련이 없다.   
- 대립가설(H1) : 연령대와 먹는 아이스크림 종류는 서로 관련이 있다.

In [10]:
# 데이터 생성

row1, row2 = [200, 190, 250], [220, 250, 300]

df = pd.DataFrame([row1, row2], columns=['딸기','초코','바닐라'], index=['10대','20대'])

df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [11]:
# chi2_contingency 항목 순서
# 검정통계량, p-value, 자유도, 기대값 

statistic, pvalue, dof, expected = chi2_contingency(df)

print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,2))

if pvalue>0.05 :
    print('귀무가설 채택 - 연령대와 먹는 아이스크림 종류는 관련이 없다 (영향을 주지 않는다)')
else:
    print('귀무가설 기각 - 연령대와 먹는 아이스크림 종류는 관련이 있다 (영향을 준다)')


1.708360126075226
0.4256320394874311
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]
귀무가설 채택 - 연령대와 먹는 아이스크림 종류는 관련이 없다 (영향을 주지 않는다)


문제 2-2       

타이타닉 데이터에서 성별(sex)와 생존여부(survived) 변수 간 독립성 검정을 실시하시오

In [12]:
import seaborn as sns
df = sns.load_dataset('titanic')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [13]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [14]:
df1 = pd.crosstab(index=df['sex'],columns=df['survived'])
print(df1)

survived    0    1
sex               
female     81  233
male      468  109


카이제곱 검정     

- 귀무가설(H0) : 성별과 생존여부는 관계가 없다.
- 대립가설(H1) : 성별과 생존여부는 관계가 있다.

In [15]:
statistic, pvalue, dof, expected = chi2_contingency(df1)

print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,3))

if pvalue > 0.05 :
  print('성별과 생존여부는 서로 관련이 없다 (귀무가설 채택 H0)')
else :
  print("성별과 생존여부는 서로 관련이 있다 (귀무가설 기각 H1)")

260.71702016732104
1.1973570627755645e-58
1
[[193.475 120.525]
 [355.525 221.475]]
성별과 생존여부는 서로 관련이 있다 (귀무가설 기각 H1)


In [16]:
# 임의 데이터 생성 
row1, row2 =  [160,160], [250,220]

df = pd.DataFrame([row1,row2], columns=['0','1'], index=['female','male'])

df

Unnamed: 0,0,1
female,160,160
male,250,220


In [17]:
# 카이제곱 검정 및 데이터 확인
statistic,  pvalue, dof, expected = chi2_contingency(df)
print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,3))

if pvalue > 0.05 :
  print('성별과 생존여부는 서로 관련이 없다 (귀무가설 채택 H0)')
else :
  print("성별과 생존여부는 서로 관련이 있다 (귀무가설 기각 H1)")

0.6541895872879862
0.41861876333789727
1
[[166.076 153.924]
 [243.924 226.076]]
성별과 생존여부는 서로 관련이 없다 (귀무가설 채택 H0)
