<img src='https://i.imgur.com/RDAD11M.png' width = '200' align = 'right'>

## *DATA SCIENCE / SECTION 1 / SPRINT 2 / NOTE 2*

---

# $\chi^2$ - tests 

## 🏆 학습 목표 

- t-test외에 다른 가설 검정방법에 대해서 설명 할 수 있다.
- t-test를 위한 조건을 알 수 있다.
- $\chi^2$-test의 목적과 사용예시를 설명 할 수 있다.
- One-sample $\chi^2$-test를 시행 할 수 있다.
- Two-sample $\chi^2$-test를 시행 할 수 있다.

## ❓ 시작하기전에

- 주어진 데이터가 정규성을 나타내는지 어떻게 확인 할 수 있을까요?
- 데이터프레임에서 categorical 한 변수인 X와 Y가 독립인지 아닌지 어떻게 확인 할 수 있을까요?
- 사용법을 모르는 함수는 어떻게 확인 할 수 있을까요?

---

## ℹ️ TMI - 다른 가설검정 방법들

<img src='https://user-images.githubusercontent.com/6457691/89754724-e8854400-db17-11ea-8c73-f13ceb9c5755.png' width ='600'>

- 여러가지 가설검정 방법 중에서 한가지만을 써야한다면 가장 많이 쓰이는 것은 아마 t-test 일 것입니다.
- 물론, 한가지만 사용 할 필요는 없습니다. 
- 이번 주제에서는 다른 가설 검정 방법에 대해서 알아보겠습니다.

In [None]:
import numpy as np
from scipy.stats import chisquare  

# Chi square는 분할표 (crosstab) / 테이블을 입력으로 받아, 행/열 간의 독립성을 검정합니다.
# 이 경우 귀무가설은 행 / 열이 각각 독립적이다 이며, 낮은 x2 값을 갖습니다.
# 대립가설은 연관이 있다 이며, 이때 x2의 값은 높습니다.
# 주의 할 점으로, X2 는 연관의 방향성 혹은 인과관계를 설명하지는 않습니다.

ind_obs = np.array([[14, 14, 14], [15, 18, 21]]).T
print(ind_obs)
print(chisquare(ind_obs, axis=None))

dep_obs = np.array([[16, 18, 16, 14, 12, 12], [32, 35, 33, 27, 25, 24]]).T # Y = 2X +- 1
print(dep_obs)
print(chisquare(dep_obs, axis=None))

## 분포 확인

<img src='https://user-images.githubusercontent.com/6457691/89755016-e4a5f180-db18-11ea-9a2b-4e20cf464b35.png' width='500'>

- 많은 통계 모델은 데이터가 정규성을 나타낸다는 가정하에 사용됩니다. 
- 예를 들어, 이후에 배우게 될 예측 모델링에서 예측 오류 (prediction error) 는 정규성을 나타낸다고 가정합니다.
- 이를 어떻게 확인 할까요? 

In [None]:
from scipy.stats import normaltest
# binomial과 유사한, poission 분포로 모델링 (coinflip)
sample = np.random.poisson(5, 1000)
print(normaltest(sample))  # 정규성을 나타내지 않음 (pvalue <<< 0.05)

## Kruskal test

**비모수적** 평균 비교법

<https://dermabae.tistory.com/168>

In [None]:
# Kruskal-Wallis H-test - 2개 이상 그룹의 중위 랭크를 통한 차이 비교 ( extended X2 )
# 샘플 수가 > 5 일때 좋음 
from scipy.stats import kruskal

x1 = [1, 3, 4, 8, 9]
y1 = [1, 4, 6, 7, 7]
print(kruskal(x1, y1))  # 약간은 다르지만, "유의한" 차이는 아님

x2 = [12, 15, 18]
y2 = [24, 25, 26]
z = [40, 40]  # 3번째 그룹은 사이즈가 다른것을 확인하세요.
print(kruskal(x2, y2, z))  # 확실히 차이가 있음

- Normal test, Kruskal test, 이 외에도, `scipy.stats` 에는 더 많은 통계 관련 패키지들이 포함되어 있습니다. 
- 여러 검정방법들은 더 특수하고, 세밀화 된 상황에 대해서 쓰일 수 있게 디자인 되어있지만, 그것들을 전부 알거나 외울 필요는 전혀 없습니다. 
- 대신 내용이 주어졌을때 이해 할 수 있을 정도로는 알아야 하죠.

In [None]:
from scipy.stats import ttest_ind
## ? , help : 메뉴얼 확인
# ?ttest_ind


## T-test를 위한 가정

<http://www.incodom.kr/%EC%9D%B4%EB%A1%A0_%EB%B0%8F_T%EA%B2%80%EC%A0%95>

<https://dermabae.tistory.com/?page=26>

<img src='https://user-images.githubusercontent.com/6457691/89757774-2fc40280-db21-11ea-8de7-43d878f97efe.png' width='500'>

- 독립성 : 두 그룹간 평균의 독립

두 데이터 그룹이, 연관이 있다면 t-test를 시행하는 의미가 크게 줄어들 것입니다.


- 등분산성 : 분산의 동질성 ("Homogeneity")

마찬가지로, 두 데이터가 어느정도 유사한 수준으로 **퍼져** 있어야 비교를 하는 것이 조금 더 유용 할 것입니다.


- 정규성: "종속 변수" ("Dependent Variable", t-test의 경우 표본 평균) 가 정규성을 나타냄

앞서 말한대로, 많은 수의 통계 검정방법들이 정규성을 가정하고 있습니다. (그리고 이 정규성은 Scipy를 통해서 확인할 수 있습니다)

이 정규성에 대한 이슈는 상당히 중요하기 때문에, 만약 데이터가 정규성을 나타내지 않을 것으로 판단 되는 경우, 데이터의 변환을 통해서 정규성을 띄게 한 다음 이후의 검정들을 진행 할 수 있습니다. 구체적으로는 데이터의 샘플 수를 늘려 (CLT) 문제를 해결 하는 편입니다.


## 자유도 (Degrees of Freedom)

🍦일주일 내내 배라를 가서 콘을 하나씩 먹는 방법 

<img src='https://user-images.githubusercontent.com/6457691/89760769-00fd5a80-db28-11ea-86e1-94eeee025f71.png'>

- 월요일 - 7개의 선택 (민초)
- 화요일 - 6개의 선택 (바닐라)
- 수요일 - 5개의 선택 (녹차)
- 목요일 ...
- 일요일 - 선택지가 없음 🔥 (자유도 X)

따라서 이 문제에 대한 자유도는 n - 1 = 6

**독립적으로 정해질 수 있는 값의 수.**

예시 

1) 일주일 동안 7종류의 아이스크림

2) 1-sample t-test를 위한 10개의 value. 

3) X2 test

4) regression 

## T 통계치를 P-value로 바꾸는 방법

[U of Iowa T-statistic Applet](https://homepage.divms.uiowa.edu/~mbognar/applets/t.html)

![T-statistic table](https://www.biologyforlife.com/uploads/2/2/3/9/22392738/ttable.png)

# 카이스퀘어 검정 ( $\chi^2$ Tests )

##  적합도를 위한 $\chi^2$ 검정 ( 1-sample )

전체 127번의 주사위를 던졌다고 가정

| 주사위 값 : |  1  |  2  |  3  |  4  |  5  |  6  |
|-----------|-----|-----|-----|-----|-----|-----|
| 관측: |  27 | 13  |  10 | 15  | 30  |  32 |
| 예상: |  21.16 | 21.16  | 21.16  |  21.16 | 21.16  | 21.16  |

1-sample X2 테스트는, 여러 카테고리 데이터에 대해서 빈도가 예상되는 값과 일치 하는지를 비교 하는 방법입니다.

2-sample X2 테스트는, 2개의 카테고리 데이터가 서로 연관이 있는 지를 비교 하는 방법입니다.

예상 되는 빈도의 값은 :

\begin{align}
\frac{\text{전체 데이터 수}}{\text{# 데이터의 종류}}
\end{align}

In [None]:
total = 27+13+10+15+30+32
count = 6
exp = np.repeat(total, count) / count
print(exp)

### $\chi^2$ 통계치 의 계산식

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

각 차이의 값을 제곱하는 것으로, 모든 값을 양수로 만들고 관측과 예측값의 **차이**를 더 강조하는 효과가 있습니다.

## 독립 확인을 위한 $\chi^2$ 테스트 (2-sample $\chi^2$ test)

<https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EA%B2%80%EC%A0%95>

## 🍴Kaggle의 [Food Choice 데이터셋](https://www.kaggle.com/borapajo/food-choices?select=food_coded.csv)을 사용합니다.

데이터셋 내부에 여러 텍스트 데이터가 많아서 원래는 NLP를 사용해야 하지만, 지금은 categorical 분석을 위하여 부분만 사용하도록 하겠습니다.


In [None]:
import pandas as pd
food = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/food_choice/food_coded.csv')
print(food.head())

- 여러 데이터 중 `income`과 `pay_meal_out`, 그리고 `persian_food` 변수에 대해서만 사용해보도록 하겠습니다.

In [None]:
print(food[['income','pay_meal_out','persian_food']].dtypes)

In [None]:
small_food = food[['income','pay_meal_out','persian_food']].astype('category')

print(small_food.dtypes)

print(small_food.head())

## Run a $\chi^{2}$ Test "by hand" (Using Numpy)

가능한 3가지의 조합 중 2가지의 경우에 대해서만 해보겠습니다.

1) income - pay_meal_out

2) pay_meal_out - persian_food


In [None]:
obs = pd.crosstab(small_food['income'], small_food['pay_meal_out'])
print(obs)

print(obs.sum()) # sum by column

## 처음에 계산하기에 category가 너무 많으니 3,4 데이터만 사용하도록 하겠습니다.

||pay = 3|pay = 4|
|---|---|---|
|income = 3|9|2 |
|income = 4| 13|3 |


## 예측값 계산
\begin{align}
expected_{i,j} =\frac{(row_{i} \text{total})(column_{j} \text{total}) }{(\text{total observations})}  
\end{align}

In [None]:
obs = np.array([9,2,13,3])

In [None]:
total_obs = np.sum(obs)
print(total_obs)

In [None]:
exp = np.array([(9+13)*(9+2), (9+13)*(13+3), (2+3)*(9+2), (2+3)*(13+3)])

### $\chi^{2}$ 통계치 계산

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

In [None]:
squared = np.power(obs - exp, 2)
print(squared)

In [None]:
x2 = np.sum(squared / exp)
print(x2)

2-sampe $\chi^2$ test의 자유도 (Degree of Freedom) 는 1-sample과는 조금 다릅니다.

1-sample (적합도 검정), DF = # categories-1

2-sample (독립성 검정), DF = (#행 - 1)*(#열 - 1)

DF: (2-1)*(2-1) = 1

P-value 계산을 위한 통계치 사용 : 

stats.chi2.pdf(x2, df)

[U Iowa chi^2 applet](https://homepage.divms.uiowa.edu/~mbognar/applets/chisq.html)

In [None]:
from scipy import stats
print( 1 - stats.chi2.cdf(x2, df = 1)) # pvalue : 0.0, 연관이 있다.

## Scipy를 이용한 $\chi^{2}$ 테스트

1) 귀무가설 : 두 변수간 연관이 없다.

2) 대립가설 : 두 변수간 연관이 있다.

3) 신뢰구간 : 95% 

In [None]:
# ?stats.chisquare

chisquare(obs, exp, ddof = 1, axis = None)

### chisquare 말고 chi2_contingency 사용하기

In [None]:
obs = pd.crosstab(small_food['income'], small_food['persian_food'])
print(obs)



In [None]:
table = pd.DataFrame(
[
    [5,4],
    [3,8]
],
index = ['income = 3', 'income = 4'],
columns = ['persian = 3','persian = 4'])
table

In [None]:
# ?chi2_contingency

from scipy.stats import chi2_contingency
print(chi2_contingency(table, correction = False))
print(chi2_contingency(table, correction = True))