# 카이제곱검정
| 적합성 검정 | 다항모집단 비율의 차이        | `chisquare()`        |
|-------------|-------------------------------|----------------------|
| 독립성 검정 | 한 모집단 내 여러 수준의 차이 | `chi2_contingency()` |

## 적합성 검정 (Goodness of fit test)
- 다항 모집단 비율의 차이
- 표본의 빈도를 이용하여 모집단의 가정된 빈도나 가정된 비율을 만족하는지를 확인하는 것
- 관찰빈도와 기대빈도의 차이를 이용한 검정
    - 관찰빈도는 `value_counts()` 관련

### 적합성 검정 Example 1
- [출처 : 데이터마님 빅분기 기출변형 4회 작업형3 예상문제](https://www.datamanim.com/dataset/practice/ex3.html#id4)

다이어트약의 전후 체중 변화 기록이다. 투약 후 체중에서 투약 전 체중을 뺏을 때 값은 일반 적으로 세가지 등급으로 나눈다. -3이하 : A등급, -3초과 0이하 : B등급, 0 초과 : C등급. 약 실험에서 A,B,C 그룹간의 인원 수 비율은 2:1:1로 알려져 있다. 위 데이터 표본은 각 범주의 비율에 적합한지 카이제곱 검정하려한다.

- 1-1) A등급에 해당하는 유저는 몇명인지 확인하라.
- 1-2) 카이제곱검정 통계량을 반올림하여 소숫점 이하 3째자리까지 구하여라.
- 1-3) 카이제곱 검정 p값을 반올림하여 소숫점 이하 3자리까지 구하라. 
- 1-4) 유의수준 0.05하에서 귀무가설과 대립가설중 유의한 가설을 하나를 선택하시오(귀무/대립).

In [4]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e3_p3_1.csv')
df.head()

Unnamed: 0,ID,투약전,투약후
0,user_1,55.137,56.106
1,user_2,66.584,60.409
2,user_3,52.259,50.639
3,user_4,77.081,69.164
4,user_5,62.677,57.622


#### 1) 본 문제의 가설?
- 귀무가설 : 실험에서 A,B,C 그룹간의 인원 수 비율은 2:1:1이다.
- 대립가설 : 실험에서 A,B,C 그룹간의 인원 수 비율은 2:1:1이 아니다.

#### 2) A, B, C 그룹 간 인원수 비율은 2:1:1로 알려져 있다 -> 기대도수 계산 시 0.5, 0.25, 0.25 곱해주기
- 2 : 1 : 1 = 2/4 : 1/2 : 1/2  $\rightarrow$ 0.5 : 0.25 : 0.25 

#### 3) 가장 먼저 기대빈도, 관찰빈도 계산 !!


In [11]:
# 투약후-투약전 차이 칼럼 생성
df["diff"] = df["투약후"] - df["투약전"]

def cat(x) : 
    cat=''
    if x <= -3 :
        cat = "A"
    elif -3 < x <= 0 :
        cat = "B"
    elif x > 0 :
        cat = "C"
    return cat 


df["cat"] = df["diff"].apply(cat)
df.head()

Unnamed: 0,ID,투약전,투약후,차이,diff,cat
0,user_1,55.137,56.106,0.969,0.969,C
1,user_2,66.584,60.409,-6.175,-6.175,A
2,user_3,52.259,50.639,-1.62,-1.62,B
3,user_4,77.081,69.164,-7.917,-7.917,A
4,user_5,62.677,57.622,-5.055,-5.055,A


In [13]:
# 1) A등급 몇 명?
result_1 = len(df[df["cat"] == "A"])
print(result_1)

121


In [14]:
# 2) 카이제곱 통계량

# 관찰도수
observed = df["cat"].value_counts().values

# 기대도수
expected = [len(df["cat"])*0.5, len(df["cat"])*0.25, len(df["cat"])*0.25]

from scipy.stats import chisquare
s, p = chisquare(observed, expected)
result_2 = round(s, 3)
print(result_2)

3.613


In [15]:
# 3) p-value
result_3 = round(p, 3)
print(result_3)

0.164


In [16]:
# 4) 유의한 가설은?
# p-value가 0.164로, 유의수준 0.05보다 크기 때문에 귀무가설을 기각하지 못한다. 따라서 귀무가설을 채택한다.
print("귀무")

귀무


### 적합성 검정 Example 2 
144회 주사위를 던졌을때, 각 눈금별로 나온 횟수를 나타낸다. 이 데이터는 주사위의 분포에서 나올 가능성이 있는지 검정하라

[데이터 마님 stats 주요 모듈 - 카이제곱검정](https://www.datamanim.com/dataset/97_scipy/scipy.html#id4)

In [41]:
import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/dice.csv')
df.head()

Unnamed: 0,dice_number,counts
0,1,24
1,2,20
2,3,28
3,4,22
4,5,28


#### 본 문제의 가설?
- 귀무가설 : 각 주사위 눈금 발생비율은 동일하다.
- 대립가설 : 각 주사위 눈금 발생비율은 동일하지 않다.

#### 주사위 눈금의 발생확률은 1/6로 모두 동일
- 각 눈금의 기댓값은 실제 발생한 모든 값을 더해 6으로 나눈 값

In [42]:
from scipy.stats import chisquare

# 기대도수
df["expected"] = df["counts"].sum() / 6

print(chisquare(df["counts"], df["expected"]))

Power_divergenceResult(statistic=2.333333333333333, pvalue=0.8013589222076911)


- p-value 값이 0.8로, 유의수준 0.05보다 크다. 따라서 귀무가설을 기각할 수 없다(채택). 
- 즉, 각 주사위 눈금 발생비율은 동일하다고 할 수 있다.

### 적합성 검정 Example 3
다음 데이터는 어떤 집단의 왼손잡이, 오른손 잡이의 숫자를 나타낸다. 인간의 왼손잡이와 오른손잡이의 비율을 0.2:0.8로 알려져있다.
이 집단에서 왼손과 오른손 잡이의 비율이 적합한지 검정하라

[데이터 마님 stats 주요 모듈 - 카이제곱검정](https://www.datamanim.com/dataset/97_scipy/scipy.html#id4)

In [9]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/hands2.csv')
df.head()

Unnamed: 0,hands
0,right
1,right
2,left
3,right
4,right


In [17]:
df["hands"].value_counts()

right    420
left      80
Name: hands, dtype: int64

In [16]:
observed = df["hands"].value_counts().values # 오른손 420, 왼손 80
observed

array([420,  80], dtype=int64)

In [18]:
from scipy.stats import chisquare
expected = [len(df)*0.8, len(df)*0.2]

chisquare(observed, expected)

Power_divergenceResult(statistic=5.0, pvalue=0.025347318677468325)

- 카이제곱 적합성 검정 결과, p-value값이 유의수준 0.05보다 작기 떄문에 귀무가설을 기각한다. (대립가설 채택)
- 따라서 왼손잡이와 오른손잡이의 비율은 0.2 : 0.8으로 볼 수 없다.

---

## 독립성 검정 (Test of independence)
- 한 모집단 내 여러 수준의 차이
- 교차분석 : 카이제곱검정 중 독립성 검정이 나왔다면 '교차표'부터 만들기
    - 독립성 검정은 교차분석이라고도 불림


### 피셔의 정확검정 : `fisher_exact()`
- 데이터셋의 크기가 작고, 기대되는 빈도가 작을 때 피셔의 정확검정을 사용
- 빈도수가 5개 이하 셀의 수가 전체 셀의 20% 이상일 경우 사용
- 비모수적인 방법으로서, 적은 샘플 크기에서도 정확한 결과를 제공

#### 가설
- 귀무가설 : A와 B의 실력은 차이가 없다.
- 대립가설 : A의 실력이 더 좋다.

참고 : 핵심만 요약한 통계와 머신러닝 파이썬 코드북

In [61]:
import pandas as pd
from scipy.stats import fisher_exact

table = pd.DataFrame([[8, 3], [4, 5]], index = ["A", "B"], columns=["승", "패"])
print(table)

s, p = fisher_exact(table, alternative="greater")

print()
print("검정통계량 : ", round(s, 3))
print("p-value : ", format(p, '.3f'))

   승  패
A  8  3
B  4  5

검정통계량 :  3.333
p-value :  0.205


- 검정 결과, p-value가 0.205로 유의수준 0.05보다 크므로 귀무가설을 기각하지 않는다. 따라서 A와 B의 실력은 차이가 없다고 할 수 있다.

### 독립성 검정 Example 1
- 데이터 설명 : 은행의 전화 마케팅에 대해 고객의 반응 여부  

y 변수와 education 변수는 독립인지 카이제곱검정을 통해 확인하려한다. p-value값을 출력하라

[출처 : 데이터마님 빅분기 작업형1 모의고사 1회 9번](https://www.datamanim.com/dataset/practice/q1.html)

In [1]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/bank/train.csv')
df.head()

Unnamed: 0,ID,age,job,marital,education,default,balance,housing,loan,contact,day,month,campaign,pdays,previous,poutcome,y
0,13829,29,technician,single,tertiary,no,18254,no,no,cellular,11,may,2,-1,0,unknown,no
1,22677,26,services,single,secondary,no,512,yes,yes,unknown,5,jun,3,-1,0,unknown,no
2,10541,30,management,single,secondary,no,135,no,no,cellular,14,aug,2,-1,0,unknown,no
3,13689,41,technician,married,unknown,no,30,yes,no,cellular,10,jul,1,-1,0,unknown,no
4,11304,27,admin.,single,secondary,no,321,no,yes,unknown,2,sep,1,-1,0,unknown,no


#### `pd.crosstab()` : 카이제곱검정 중 독립성검정이 등장? $\rightarrow$ 교차표(빈도표)부터 생성할 것 !

In [2]:
table = pd.crosstab(df["y"], df["education"])
table.head()

education,primary,secondary,tertiary,unknown
y,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
no,1424,4555,2559,365
yes,456,1813,1516,182


In [3]:
from scipy.stats import chi2_contingency

s, p, dof, expected = chi2_contingency(table)
print(p)

7.901201277473551e-29


In [4]:
expected

array([[1300.51592852, 4405.15182595, 2818.93745144,  378.39479409],
       [ 579.48407148, 1962.84817405, 1256.06254856,  168.60520591]])

### + 추가 문제 제작)
y가 no이고, education이 secondary일 때 기대도수? -> table 위치에 대응해서 expected 찾아주기
- 주의할 점 : 파이썬은 0부터 시작하기 떄문에 찾는 행, 열 위치에 각각 -1 해줘야 함 !

In [5]:
expected[0,1]

4405.151825951826

### 독립성 검정 Example 2
어느 대학교의 신입생의 학과별 성별에 대한 데이터이다. 학생들의 학과와 성별이 서로 독립적인지 여부를 확인하기 위해 카이제곱 독립성 검정을 실시 하려한다.

- 1-1) 학과 평균 인원에 대한 값을 소숫점 이하 3자리까지 구하여라. 
- 1-2) 카이제곱검정 독립성 검정 통계량을 소숫점 이하 3자리까지 구하여라.
- 1-3) 카이제곱검정 독립성 검정의 pvalue를 소숫점 이하 3자리까지 구하여라. 
- 1-4) 유의수준 0.05하에서 귀무가설과 대립가설중 유의한 것을 출력하라.

[출처 : 데이터마님 4회 작업형 3 예상문제](https://www.datamanim.com/dataset/practice/ex4.html#id4)

In [31]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e4_p3_1_.csv')
df.head()

Unnamed: 0,학번,학과,성별
0,DFSKJK_1,경영학과,여
1,DFSKJK_2,사회학과,여
2,DFSKJK_3,기계공학과,여
3,DFSKJK_4,경제학과,남
4,DFSKJK_5,기계공학과,여


#### 카이제곱 독립성 -> 교차표 생성

In [32]:
table = pd.crosstab(df["학과"], df["성별"])
# print(table.head())

# 1) 학과 평균 인원 값

# 아래 방법은, 1번 문제 답은 맞지만 통계검정 오류 생길 수 있음 
# table["인원"] = table["남"] + table["여"]
# result_1 = round(table["인원"].mean(), 3)
# print(result_1)

170.333


In [None]:
# result= round(df.groupby(['학과']).size().mean(),3)

In [37]:
df["학과"].value_counts()

경영학과     321
기계공학과    244
경제학과     170
전자공학과    129
사회학과      99
의학과       59
Name: 학과, dtype: int64

In [40]:
result_1  = round(df["학과"].value_counts().mean(), 3)
print(result_1)

170.333


In [35]:
# 2) 검정통계량
table = pd.crosstab(df["학과"], df["성별"])

from scipy.stats import chi2_contingency
s, p, dof, expected = chi2_contingency(table)
result_2 = round(s, 3)
print(result_2)

5.646


In [36]:
# 3) p-value
result_3 = round(p, 3)
print(result_3)

0.342


In [30]:
# 4) 유의한 가설은?
# p < alpha -> 기각
# p-value가 유의수준 0.05보다 크기 때문에, 귀무가설을 기각하지 않는다. 따라서 귀무가설을 채택
print("귀무")

귀무


### 독립성 검정 Example 3
다음 데이터는 국민 기초체력을 조사한 데이터이다. 성별과 등급이 독립적인지 검정하라

[데이터 마님 stats 주요 모듈 - 카이제곱검정](https://www.datamanim.com/dataset/97_scipy/scipy.html#id4)

In [51]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/body/body.csv')
df.head()

Unnamed: 0,측정나이,측정회원성별,신장 : cm,체중 : kg,체지방율 : %,이완기혈압(최저) : mmHg,수축기혈압(최고) : mmHg,악력D : kg,앉아윗몸앞으로굽히기 : cm,교차윗몸일으키기 : 회,제자리 멀리뛰기 : cm,등급
0,59.0,M,175.0,70.6,19.2,91.0,150.0,40.6,12.2,30.0,179.0,C
1,40.0,F,161.4,45.8,21.7,62.0,119.0,22.1,16.0,32.0,165.0,B
2,27.0,M,176.6,84.8,19.2,87.0,153.0,45.9,13.2,61.0,216.0,B
3,38.0,M,167.6,76.7,24.7,63.0,132.0,43.6,16.0,45.0,231.0,A
4,21.0,M,165.2,66.2,21.5,83.0,106.0,33.5,10.6,46.0,198.0,C


In [55]:
from scipy.stats import chi2_contingency

table = pd.crosstab(df["측정회원성별"], df["등급"])
# table

s, p, dof, expected = chi2_contingency(table)
print(format(p, '.6f'))

0.000000


- p-value가 유의수준 0.05 보다 작으므로, 귀무가설을 기각한다. 따라서, 두 변수 간에 관련성이 있다고 볼 수 있다.

### 독립성 검정 Example 4
성별에 따른 동아리 활동 참석 비율을 나타낸 데이터이다. 성별과 참석간에 관련이 있는지 검정하라

[데이터 마님 stats 주요 모듈 - 카이제곱검정](https://www.datamanim.com/dataset/97_scipy/scipy.html#id4)

In [22]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/fe2.csv',index_col=0)
df

Unnamed: 0,불참,참석,총합
남성,4,2,6
여성,1,9,10
총합,5,11,16


In [23]:
# df에서 총합이 필요하진 않을 듯

df = df.drop("총합", axis=1)
df = df.drop("총합", axis=0)
df

Unnamed: 0,불참,참석
남성,4,2
여성,1,9


In [24]:
from scipy.stats import chi2_contingency

chi2_contingency(df)

(3.277575757575758,
 0.07023259819117404,
 1,
 array([[1.875, 4.125],
        [3.125, 6.875]]))

- p-value 가 0.05보다 크므로 귀무가설을 기각하지 않는다. 따라서 독립이라고 할 수 있다.

#### 셀의 빈도가 5 이하인 경우가 20%를 넘음 -> 피셔의 정확검정

In [25]:
from scipy.stats import fisher_exact

fisher_exact(df)

(18.0, 0.035714285714285726)

- p-value 가 0.05보다 작으므로 귀무가설을 기각, 따라서 독립이 아니라고 할 수 있다.