## 적합도 검정(Goodness of fit test)
----------------------------------------------
    1개의 범주형 변수가 특정 분포를 잘 따르고 있는지를 검정

    - 귀무가설 : 특정 분포를 따른다.(특정 분포 확률을 따른다).
    - 대립가설 : 특정 분포를 따르지 않는다.(특정 분포 확률을 따르지 않는다)

### 01. 카이제곱 적합도 검정
```python
scipy.stats.chisquare(observed,expected,ddof,axis)
```
- observed : 관측된 빈도 리스트(배열)
- expected : 기대 빈도 리스트(배열), 주어지지 않으면 모든 카테고리 관측 빈도가  균일하고 관측 빈도의 평균이 주어진다고 가정함.
- ddof : 자유도 조정, 기본값 0
- axis : 축, 기본값 0

-----------------------------
Q. 어떤 도시에서 300명을 대상으로 아이스크림 맛 선호도를 조사했다. 이 도시에서 조사된 아이스크림 맛 선호도는 바닐라 : 150명, 초코 : 120명, 딸기 : 30명이었다.
전국적인 아이스크림 맛 선호도 조사 결과를 통해 알려진 비율은 바닐라 50%, 초코 35%, 딸기 15%로 알려져 있다. (유의수준 : 0.05) 이 도시의 맛 선호도와 전국적인 맛 선호도의 차이가 있는가?

In [2]:
from scipy import stats

observed = [150,120,30]
expected = [300*0.5,300*0.35,300*0.15]

print(stats.chisquare(observed,expected))

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.028115659748972056)


# 독립성 검정
-------------
    2개의 변수가 서로 독립적인지, 연관이 있는지 검정하는데 사용한다.
    - 귀무가설 : 두 범주형 변수가 독립적이다.(서로 연관성이 없다.)
    - 대립가설 : 두 범주형 변수가 독립적이 아니다.(서로 연관성이 있다.)
### 01. 교차표 기반 카이제곱 검정
```python
scipy.stats.chi2_contingency(table,correction=True)
```
- table : 교차표(contingency Table) 데이터 (2차원 형태)
- correction : 연속성 보정 여부, 기본값은 True, 연속성 수정을 적용한 것과 적용하지 않았을 때의 통계량은 다르다. 문제에서 연속성 수정에 대한 언급이 없다면, 기본값(True)으로 두고, "연속성 수정을 하지 않는다" 라는 조건이 있다면 False로 설정한다.

------------------------
Q. 성별에 따라 운동을 좋아하는지 조사한 결과다.
성별과 운동 선호도가 독립적인지 가설검정을 실시하시오. (유의수준 0.05)
- 귀무가설 : 성별과 운동 선호도는 독립적이다.
- 대립가설 : 성별과 운동 선호도는 독립적이지 않다.

#### 교차표 데이터

|  | 좋아함 | 좋아하지 않음 |
|----------|----------|----------|
|   남자 |   80 |   30 |
|   여자 |   90 |   10 |



In [3]:
import pandas as pd
df = pd.DataFrame({'좋아함':[80,90],
                   '좋아하지 않음':[30,10]},index=['여자','남자'])

print(df)

    좋아함  좋아하지 않음
여자   80       30
남자   90       10


In [12]:
import pandas as pd
df = pd.DataFrame([[80,30],[90,10]],columns=['좋아함','좋아하지 않음'],index=['남자','여자'])

print(df)

    좋아함  좋아하지 않음
남자   80       30
여자   90       10


In [13]:
from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[89.04761905, 20.95238095],
       [80.95238095, 19.04761905]]))


#### 기대 빈도 해석(expected_feq)
- 89.04761905 : 남자가 좋아함을 선택할 것으로 기대되는 수
- 80.95238095 : 여자가 좋아함을 선택할 것으로 기대되는 수
- 20.95238095 : 남자가 좋아하지 않음을 선택할 것으로 기대되는 수
- 19.04761905 : 여자가 좋아하지 않음을 선택할 것으로 기대되는 수

In [24]:
# raw 데이터 주어질 경우
import pandas as pd
data = {
    '성별':['남자']*110 + ['여자']*100,
    '운동':['좋아함']*80 +['좋아하지 않음']*30 + ['좋아함']*90 +['좋아하지 않음']*10
}
df = pd.DataFrame(data)
print(df.head(3))

   성별   운동
0  남자  좋아함
1  남자  좋아함
2  남자  좋아함


In [25]:
df = pd.crosstab(df['성별'],df['운동'])
print(df)

운동  좋아하지 않음  좋아함
성별              
남자       30   80
여자       10   90


In [26]:
from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[20.95238095, 89.04761905],
       [19.04761905, 80.95238095]]))


# 동질성 검정
-------------
    2개 이상의 집단에서 분산의 동질성을 가졌는지 검정하는데 사용한다. 동질성 검정은 목적과 적용 상황은 다르지만, 계산 방식이 동일해 사용하는 함수가 같다. 해석만 다를 뿐이다. 범주형 데이터 분석에서 p-value, 통계량, 귀무가설 채택 및 기각 등이 문제로 출제된다고 가정했을 때 답을 작성할 때는 독립성과 동질성 문제를 하나로 생각해도 된다.
### 01. 교차표 기반 카이제곱 검정
------------------------
```python
scipy.stats.chi2_contingency(table,correction=True)
```
- table : 교차표(contingency Table) 데이터 (2차원 형태)
- correction : 연속성 보정 여부, 기본값은 True, 연속성 수정을 적용한 것과 적용하지 않았을 때의 통계량은 다르다. 문제에서 연속성 수정에 대한 언급이 없다면, 기본값(True)으로 두고, "연속성 수정을 하지 않는다" 라는 조건이 있다면 False로 설정한다.

### 02. 독립성 검정과 동질성 검정
------------------------
- 독립성 검정 : 두 범주형 변수 간에 연관성이 있는지를 확인한다. 예시 : 성별이 운동 선호도에 영향을 주는가?
- 동질성 검정 : 서로 다른 그룹 또는 모집단이 동일한 범주 분포를 가졌는지 확인한다. 예시 : 2개의 다른 학교에서 학생들의 운동 선호도가 동일한가?
------------------------
Q. 학과에 따라 학교 공식 동아리에 가입한 학생 수와 가입하지 않은 학생의 수를 비교하는 동질성 검사를 실시하고, 유의수준에 따른 검정 결과를 작성하시오.(유의수준 0.05)
- 귀무가설 : 두 학과의 동아리 가입 비율은 동일하다.
- 대립가설 : 두 학과의 동아리 가입 비율은 동일하지 않다.

#### 교차표 데이터

| 학과 | 가입 | 미가입 |
|----------|----------|----------|
| 통계확과 |  50 |   50 |
|  컴퓨터공학과 |   30 |  70 |



In [28]:
import pandas as pd
df = pd.DataFrame([[50,50],[30,70]])
from scipy.stats import chi2_contingency
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))


In [38]:
# 로우 데이터가 주어질 경우
import pandas as pd
data = {
    '학과' : ['통계확과']*100 + ['컴퓨터공학과']*100,
    '동아리가입여부' :['가입']*50 + ['미가입']*50 +['가입']*30 +['미가입']*70
}
df = pd.DataFrame(data)
df.sample(5)

Unnamed: 0,학과,동아리가입여부
38,통계확과,가입
67,통계확과,미가입
99,통계확과,미가입
7,통계확과,가입
34,통계확과,가입


In [39]:
df = pd.crosstab(df['학과'],df['동아리가입여부'])
df

동아리가입여부,가입,미가입
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
컴퓨터공학과,30,70
통계확과,50,50


In [40]:
print(chi2_contingency(df))

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))


### 기대 빈도 해석
- 40.0 : 컴퓨터공학과 학생이 동아리 가입할 것으로 기대되는 수
- 60.0 : 컴퓨터 공학과 학생이 동아리 미가입할 것으로 기대되는 수
- 40.0 : 통계학과 학생이 동아리에 가입할 것으로 기대되는 수
- 60.0 : 통계학과 학생이 동아리에 미가입할 것으로 기대되는 수