### 카이제곱 검정
----
    범주형 데이터의 관찰된 빈도와 기대된 빈도를 비교하여 두 변수 간의 독립성이나 분포의 적합성을 검정하는 방법이다.
    주요 유형으로 적합도 검정, 독립성 검정, 동질성 검정이 있다.

### 적합도 검정
    적합도 검정(Goodness of fit test)은 1개의 범주형 변수가 특정 분포를 잘 따르고 있는지 검정하는데 사용한다.
- 귀무가설 : 특정 분포를 따른다.
- 대립가설 : 특정 분포를 따르지 않는다.


1. 카이제곱 적합도 검정
```
scipy.stats.chisquare(observed,expected,ddof,axis)
```
- observed : 관측된 빈도 리스트(배열)
- expected : 기대 빈도 리스트(배열)<br/>
 주어지지 않으면 모든 카테고리의 관측 빈도가 균일하고 관측 빈도의 평균으로 주어진다고 가정함.
- ddof : 자유도 조정, 기본값 0
- axis : 축, 기본값 0

Q. 어떤 도시에서 300명을 대상으로 아이스크림 맛 선호도를 조사했다. <BR/>
이 도시에서 조사된 아이스크림 맛 선호도는 바닐라 :150명 , 초코: 120명 , 딸기 : 30명이였다.<BR/>
전국적인 아이스크림 맛 선호도 조사 결과를 통해 알려진 비율은 바닐라 50% 초코 35% 딸기 15%로 알려져 있다. <BR/>
이 도시의 아이스크림 맛 선호도는 전국적인 맛 선호도와 차이가 있는가?.

- 귀무가설 : 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 동일하다.
- 대립가설 : 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 동일하지 않다.

In [73]:
from scipy import stats

observed = [150,120,30]
expected = [0.5*300,0.35*300,0.15*300]
print(stats.chisquare(observed,expected))

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.028115659748972056)


### 독립성 검정
    독립성 검정(Test of independence) 2개의 변수가 서로 독립적인지, 연관이 있는지 검정하는데 사용한다.
- 귀무가설 : 두 범주형 변수는 독립적이다(서로 연관성이 없다).
- 대립가설 : 두 범주형 변수는 독립적이 아니다(서로 연관성이 있다).


1. 카이제곱 적합도 검정
```
scipy.stats.chi2_contingency(table,correction=True)
```
- table : 교차표(Contingency Table) 데이터 (2차원 형태)
- correction : 연속성 보정 여부 : 기본값은 True <br/>
문제에 연속성을 보정하지 않는다 라는 조건이 있다면 False


Q. 성별에 따라 운동을 좋아하는지 조사한 결과다. 성별과 운동 선호도가 독립적인지 가설검정을 실시하시오.(유의수준 0.05)
- 귀무가설 :성별과 운동 선호도는 독립적이다.
- 대립가설 : 성별과 운동 선호도는 독립적이지 않다.

In [74]:
import pandas as pd
df = pd.DataFrame({'좋아함':[80,90],
                   '좋아하지 않음':[30,10]},
                   index=['남자','여자'])
df

Unnamed: 0,좋아함,좋아하지 않음
남자,80,30
여자,90,10


In [75]:
from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[89.04761905, 20.95238095],
       [80.95238095, 19.04761905]]))


In [85]:
data  = {
    '성별' : ['남자']*110 + ['여자']*100,
    '운동' : ['좋아함']*80 + ['좋아하지않음']*30 + ['좋아함']*90 + ['좋아하지않음']*10
}

df = pd.DataFrame(data)
df

Unnamed: 0,성별,운동
0,남자,좋아함
1,남자,좋아함
2,남자,좋아함
3,남자,좋아함
4,남자,좋아함
...,...,...
205,여자,좋아하지않음
206,여자,좋아하지않음
207,여자,좋아하지않음
208,여자,좋아하지않음


In [86]:
df = pd.crosstab(df['성별'],df['운동'])
df

운동,좋아하지않음,좋아함
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,30,80
여자,10,90


##### 동질성 검정(Test of homogeneity)
    2개 이상의 잡단에서 분산의 동질성을 가졌는지 검정하는 데 사용한다.

- 귀무가설 : 모든 그룹의 분포나 비율은 동일하다.
- 대립가설 : 각 그룹의 분포나 비율은 동일하지 않다.

1. 교차표 기반 카이제곱 검정
```
scipy.stats.chi2_contingency(table,correction=True)
```

2. 독립성 검정과 동질성 검정
- 독립성 검정 : 두 범주형 변수 간에 연관성이 있는지를 확인한다.
- 동질성 검정 : 서로 다른 그룹 또는 모집단이 동일한 범주 분포를 가졌는지 확인한다.

Q. 학과에 따라 학교 공식 동아리에 가입한 학생의 수와 가입하지 않은 수를 비교하는 동질성 검사를 실시하고, 유의수준에 따른 검정 결과를 작성하시오

In [92]:
df = pd.DataFrame({'가입':[50,30],
                   '미가입':[50,70]},index = ['통계학과','컴퓨터공학과'])
df.index.name='학과'
df


Unnamed: 0_level_0,가입,미가입
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
통계학과,50,50
컴퓨터공학과,30,70


In [93]:
from scipy import stats
stats.chi2_contingency(df)

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))

In [94]:
data = {
    '학과':['통계학과']*100 + ['컴퓨터공학과']*100,
    '동아리가입여부':['가입']*50 + ['미가입'] *50 + ['가입']*30
 + ['미가입']*70}

df = pd.DataFrame(data)
df.sample(5)

Unnamed: 0,학과,동아리가입여부
26,통계학과,가입
28,통계학과,가입
182,컴퓨터공학과,미가입
52,통계학과,미가입
144,컴퓨터공학과,미가입


In [95]:
df = pd.crosstab(df['학과'],df['동아리가입여부'])

In [96]:
from scipy import stats
stats.chi2_contingency(df)

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))