# 카이제곱 검정
- section 01 : 적합도 검정
- section 02 : 독립성 검정
- section 03 : 동질성 검정

## section 01 : 적합도 검정
- 적합도 검정(Goodness of fit test)은 1개의 범주형 변수가 특정 분포를 잘 따르고 있는지 검정하는데 사용
    - 귀무가설 : 특정 분포를 따른다
    - 대립가설 : 특정 분포를 따르지 않는다


```python
scipy.stats.chisquare(obeserved,expected,ddof,axis)
``` 


- observed : 관측된 빈도 리스트(배열)
- expected : 기대 빈도 리스트(배열), 주어지지 않으면 모든 카테고리의 관측 빈도가 균일, 관측 빈도의 평균으로 주어진다고 가정
- ddof : 자유도 조정, 기본값 0
- axis : 축, 기본값 0

#### 문제 
- 어떤 도시에서 300명을 대상으로 아이스크림 맛 선호도를 조사했다.
- 이 도시에서 조사된 아이스크림 맛 선호도는
- 바닐라 : 150명 | 초코 : 120명 | 딸기 : 30명 이었다.
- 전국적인 아이스크림 맛 선호도 조사결과를 통해 알려진 비율은 바닐라 50% | 초코 35% | 딸기 15%로 알려져있다.
---
- 귀무가설 : 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 동일하다.
- 대립가설 : 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 다르다.


In [3]:
from scipy import stats

# 관측된 빈도 리스트
observed = [150,120,30]

# 기대 빈도 리스트
expected = [0.5*300, 0.35*300, 0.15*300]
print(stats.chisquare(observed,expected, 0,0))

Power_divergenceResult(statistic=np.float64(7.142857142857142), pvalue=np.float64(0.02811565974897205))


## section 02 : 독립성 검정
- 독립성 검정(Test of independence)은 2개의 변수가 서로 독립적인지, 연관이 있는지 검정하는데 사용
- 귀무가설 : 두 범주형 변수가 독립적이다.
- 대립가설 : 두 범주형 변수가 독립적이 아니다.


```python
scipy.stats.chi2_contingency(table,correction=True)
``` 


- table : 교차표 데이터(2차원 형태)
- correction : 연속성 보정 여부, 기본값은 True, 연속성 수정을 적용한 것과 적용하지 않았을 때의 통계량은 다르다.

- 귀무가설이 참일 때 구한 각 셀의 기대 빈도와 실제 관측된 빈도의 차이를 사용해 검정
- 기대 빈도와 관측된 빈도 차이가 크면 독립적이지 않고, 차이가 작으면 두 변수는 독립적이다.

### 문제
- 성별에 따라 운동을 좋아하는지 조사한 결과다
- 성별과 운동 선호도가 독립적인지 가설검정을 실시
- (유의수준 0.05)
---
- 귀무가설 : 성별과 운동 선호도는 독립적이다.
- 대립가설 : 성별과 운동 선호도는 독립적이 아니다.


#### 풀이 1)


In [5]:
# 1) 교차표 만들기
# 주어진 내용을 갖고 교차표를 데이터프레임으로 만든다

import pandas as pd

df = pd.DataFrame({
    '좋아함':[80,90],
    '좋아하지 않음':[30,10]
},index=['남자','여자'])

print(df)

    좋아함  좋아하지 않음
남자   80       30
여자   90       10


In [6]:
# 2) 독립성 검정
# chi2_contingency() 함수를 사용하여 카이제곱 통계량과 p-value를 구한다.
# 주어진 데이터의 검정 통계량은 9.04579이고, p-value는 0.0026으로 유의수준 0.05보다 작다.

from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=np.float64(9.045792112299468), pvalue=np.float64(0.0026330012530379576), dof=1, expected_freq=array([[89.04761905, 20.95238095],
       [80.95238095, 19.04761905]]))


```
Chi2ContingencyResult
(statistic=np.float64(9.045792112299468), pvalue=np.float64(0.0026330012530379576),
dof=1, expected_freq=array([[89.04761905, 20.95238095],[80.95238095, 19.04761905]]))
```


##### 풀이 1) 기대 빈도 해석(expected_freq)
- 89.04761905 : 남자가 좋아함을 선택할 것으로 기대되는 수
- 20.95238095 : 남자가 좋아하지 않음을 선택할 것으로 기대되는 수
- 80.95238095 : 여자가 좋아함을 선택할 것으로 기대되는 수
- 19.04761905 : 여자가 좋아하지 않음을 선택할 것으로 기대되는 수

#### 풀이 2)
- 로우 데이터가 주어졌을 때
- 남자가 110명, 여자가 100명이다.
- 남자 중에 좋아함이 80, 좋아하지 않음이 30명
- 여자 중에 좋아함이 90, 좋아하지 않음이 10명


In [7]:
import pandas as pd

data = {
    '성별' : ['남자'] *110 + ['여자']*100,
    '운동' : ['좋아함']*80 + ['좋아하지 않음']*30 +['좋아함']*90 + ['좋아하지 않음']*10
}

df = pd.DataFrame(data)
print(df)

     성별       운동
0    남자      좋아함
1    남자      좋아함
2    남자      좋아함
3    남자      좋아함
4    남자      좋아함
..   ..      ...
205  여자  좋아하지 않음
206  여자  좋아하지 않음
207  여자  좋아하지 않음
208  여자  좋아하지 않음
209  여자  좋아하지 않음

[210 rows x 2 columns]


In [9]:
# 크로스탭을 활용해 교차표로 변경
# 로우 데이터를 pd.crosstab() 함수를 활용해 교차표로 변경하고
# 교차표는 주로 변수간의 관계를 비교할 때 사용한다.

df = pd.crosstab(df['성별'],df['운동'])
df

운동,좋아하지 않음,좋아함
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,30,80
여자,10,90


In [10]:
# chi2_contingency()
from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=np.float64(9.045792112299468), pvalue=np.float64(0.0026330012530379576), dof=1, expected_freq=array([[20.95238095, 89.04761905],
       [19.04761905, 80.95238095]]))


## section 03 : 동질성 검정
- 동질성 검정은 2개 이상의 집단에서 분산의 동질성을 가졌는지 검정하는데 사용한다.
- 동질성 검정과 독립성 검정은 목적과 적용 상황은 다르지만, 계산방식이 동일해 사용하는 함수가 같다.
- 범주형 데이터 분석에서 p-value, 통계량, 귀무가설 채택 및 기각 등이 문제로 출제된다고 가정했을 때 독립성과 동질성문제를 하나로 생각해도 된다.

    - 귀무가설 : 모든 그룹의 분포나 비율은 동일
    - 대립가설 : 각 그룹의 분포나 비율은 동일하지 않음.

### 1. 교차표 기반 카이제곱 검정

```python
scipy.stats.chi2_contingency(table, correction=True)
``` 


- table : 교차표(Contingency Table) 데이터
- correction : 연속성 보정 여부, 기본값은 True, 연속성 수정을 적용한 것과 적용하지 않았을 때의 통계량은 다르다.


### 독립성 검정과 동질성 검정
- 독립성 검정 : 두 범주형 변수 간에 연관성이 있는지를 확인한다.
- 동질성 검정 : 서로 다른 그룹 또는 모집단이 동일한 범주 분포를 가졌는지 확인한다.


### 문제.
- 학과에 따라 학교 공식 동아리에 가입한 학생의 수와 가입하지 않은 학생의 수를 비교하는 동질성 검사를 실시하고,
- 유의수준에 따른 검정 결과를 작성하시오.(유의수준 0.05)

- 귀무가설 (H0) : 두 학과의 동아리 가입 비율은 동일하다.
- 대립가설 (H1) : 두 학과의 동아리 가입 비율은 동일하지않다.

### 교차표 데이터가 주어졌을 때
<table>
  <tr>
    <td>학과</td>
    <td>가입</td>
    <td>미가입</td>
  </tr>
  <tr>
    <td>통계학과</td>
    <td>50</td>
    <td>50</td>
  </tr>
  <tr>
    <td>컴퓨터공학과</td>
    <td>30</td>
    <td>70</td>
  </tr>
</table>

In [1]:
# 판다스 활용해 pd.DataFrame([50,50],[30,70])
# 데이터를 만든다
# 동질성 검정은 독립성과 같이 chi2_contingency() 함수를 사용해 검정 통계량, p-value를 구한다.

import pandas as pd
from scipy import stats
df = pd.DataFrame([[50,50],[30,70]])

print(stats.chi2_contingency(df))

# Chi2ContingencyResult(
#   statistic=np.float64(7.520833333333334),
#   pvalue=np.float64(0.006098945931214365),
#   dof=1, expected_freq=array([[40., 60.],[40., 60.]]))
 
# -> 검정통계량은 7.52이고, p-value는 0.006으로 유의수준 0.05보다 작으므로 귀무가설을 기각하고 대립가설을 채택한다.


Chi2ContingencyResult(statistic=np.float64(7.520833333333334), pvalue=np.float64(0.006098945931214365), dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))


### 로우 데이터가 주어졌을 때
- 문제에서 로우 데이터 형태로 주어졌을 때, 생성하는 방법


In [3]:
import pandas as pd
data ={
    '학과' :['통계학과']*100+['컴퓨터공학과']*100,
    '동아리가입여부':['가입']*50+['미가입']*50+['가입']*30+['미가입']*70
}   
df = pd.DataFrame(data)
df.sample(5)

df=pd.crosstab(df['학과'],df['동아리가입여부'])
df

동아리가입여부,가입,미가입
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
컴퓨터공학과,30,70
통계학과,50,50


In [4]:
from scipy import stats

print(stats.chi2_contingency(df))

Chi2ContingencyResult(statistic=np.float64(7.520833333333334), pvalue=np.float64(0.006098945931214365), dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))
