<img src='https://i.imgur.com/RDAD11M.png' width = '200' align = 'right'>

## *DATA SCIENCE / SECTION 1 / SPRINT 2 / NOTE 2*

---

# More Hypothesis Testing

## 🏆 학습 목표 

- t-test를 위한 조건을 알 수 있다.
- t-test외에 다른 가설검정 방법에 대해서 설명할 수 있다.
- Type of Error를 구분하고 설명할 수 있다.
- $\chi^2$-test의 목적과 사용예시를 설명할 수 있다.
- 모수통계와 비모수통계의 차이에 대해 설명할 수 있다.
---

## T-test +

어제 배운 t-test는 그룹의 평균값에 대해서 비교하는 가설검정방법입니다.

그러나 사실 t-test를 사용하기 위해서는 몇가지 조건이 가정되어야합니다.

다음 링크를 참조하세요.

<http://www.incodom.kr/%EC%9D%B4%EB%A1%A0_%EB%B0%8F_T%EA%B2%80%EC%A0%95>

<https://dermabae.tistory.com/?page=26>

<img src='https://user-images.githubusercontent.com/6457691/89757774-2fc40280-db21-11ea-8de7-43d878f97efe.png' width='500'>

- 독립성 : 두 그룹이 연결되어 있는 (paired) 쌍인지

<img src='https://i.imgur.com/IPfYgXT.png'>

- 등분산성 : 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지

<img src='https://i.imgur.com/XpNvpqF.png'>

- 정규성: 데이터가 정규성을 나타는지

<img src='https://i.imgur.com/XsR0OW1.png'>


즉 t-test는 `특정한 조건에서` 그룹의 평균을 비교하기 위한 가설검정 방법이라는 것 입니다.

**그리고 이러한 내용들을 확인하기 위한 가설검정 방법들도 scipy에 이미 구현되어 있습니다.**

### 데이터의 정규성 확인

정규분포의 수학적 정의에 대해서는 다음 링크를 참조하세요. 

<https://en.wikipedia.org/wiki/Normal_distribution>

<img src='https://i.imgur.com/34BFVHJ.png'>

그러나 만약 아래와 같이 데이터가 정규분포와는 다른 양상을 보인다면, 이를 통계적으로 어떻게 검증해야 할까요?

<img src='https://i.imgur.com/bs4DjYh.png'>

구글에 python normal test를 검색해볼 수 있을겁니다.

<img src='https://i.imgur.com/PaR3EpO.png' width = 500>

여러분은 어떤 내용이 정말 normality를 test하기 위한 방법인지 모르기 때문에 하나하나 다 읽어봐야 할겁니다.

<img src='https://i.imgur.com/Cr5VUgI.png'>

그러면 어느 순간 `scipy.stats`의 `normaltest`가 관련 방법이구나 라는 걸 알게 될 겁니다.

특히 `함께 검색한 항목`들을 참조한다면 더 깊게 공부 할 수 있을겁니다.

? 그렇다면 데이터의 등분산성을 확인하기 위해서는 어떻게 해야 할까요?!



In [2]:
from scipy.stats import normaltest
import numpy as np

sample = np.random.poisson(5, 1000) # normal 분포가 아님
normaltest(sample) 

NormaltestResult(statistic=20.30705116357633, pvalue=3.89385583211646e-05)

In [3]:
sample2 = np.random.normal(size = 1000) # normal 분포
normaltest(sample2)

NormaltestResult(statistic=1.1197351139362957, pvalue=0.5712847215191075)

## Type of Error

<img src='https://i.imgur.com/JMCGnLZ.png'>

## More hypothesis testing

<img src='https://i.imgur.com/CqfM9t8.png'>


## Non-Parametric Methods



모집단이 특정 확률 분포 (normal과 같은)를 따른다는 전제를 **하지 않는** 방식.
parameter estimation이 필요하지 않기 때문에 non-parametric이라고 부름

- Categorical 데이터를 위한 모델링 
- 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식

- `distribution free` method라고 부르기도 함.

- Chisquare
- Spearman correlation
- Run test
- Kolmogorov Smirnov
- Mann-Whitney U
- Wilcoxon
- Kruskal-Wallis 
등

### Kruskal-Wallis Test (**비모수적** 평균 비교법)

다음 링크를 참조하세요

<https://dermabae.tistory.com/168>

In [4]:
# Kruskal-Wallis H-test - 2개 이상 그룹의 중위 랭크를 통한 차이 비교 ( extended X2 )
# 샘플 수가 > 5 일때 좋음 
from scipy.stats import kruskal

x1 = [1, 3, 4, 8, 9]
y1 = [1, 4, 6, 7, 7]
kruskal(x1, y1) # 약간은 다르지만, "유의한" 차이는 아님

KruskalResult(statistic=0.01111111111111548, pvalue=0.91605107228188)

In [5]:
x2 = [12, 15, 18]
y2 = [24, 25, 26]
z = [40, 40]  # 3번째 그룹은 사이즈가 다름
kruskal(x2, y2, z)

KruskalResult(statistic=6.325301204819277, pvalue=0.042313436212501186)

## $\chi^2$ Tests

### One sample $\chi^2$ test

<img src='https://i.imgur.com/SnQFL2c.png'>

주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지 에 대한 가설검정.

Goodness of Fit test라 부르기도 합니다.

여기서 예상 되는 빈도의 값은 :

\begin{align}
\frac{\text{전체 데이터 수}}{\text{# 데이터의 종류}}
\end{align}

입니다.

### $\chi^2$ 통계치 의 계산식

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

<img src='https://i.imgur.com/lbgezU0.png' width = 450>

각 차이의 값을 제곱하는 것으로, 모든 값을 양수로 만들고 관측과 예측값의 **차이**를 더 강조하는 효과가 있습니다.

## Statistics -> P-value 

<img src='https://i.imgur.com/7PY3TGX.png'>





### 통계치를 pvalue로 바꾸는 방법??

이제는 구글링이 익숙하실 것이라고 생각합니다.

<img src='https://i.imgur.com/5yp1qpc.png'>

### P-value 계산을 위한 통계치 사용 : 

||A|B|
|:-:|:-:|:-:|
|X|9|2|
|Y|13|3|

(위 데이터는 계산을 하면 $\chi^2$ = `0.00139`가 나오고 자유도는 1이 나옴)

`stats.chi2.pdf(x2, df)` 

<https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html>

[U Iowa chi^2 applet](https://homepage.divms.uiowa.edu/~mbognar/applets/chisq.html)

In [6]:
from scipy import stats

x2 = 0.00139

1 - stats.chi2.cdf(x2, df = ((2-1)*(2-1)) ) # pvalue : 0.97, 연관이 있다.

0.9702595963009745

In [7]:
import numpy as np
from scipy.stats import chisquare  

s_obs = np.array([[18, 22, 20, 15, 23, 22]]) # Similar
print('--- Similar ---')
chisquare(s_obs, axis=None) # One sample chi-square

--- Similar ---


Power_divergenceResult(statistic=2.3000000000000003, pvalue=0.8062668698851285)

In [8]:
ns_obs = np.array([[5, 23, 26, 19, 24, 23]])

print('--- not Similar ---')
chisquare(ns_obs, axis=None)

--- not Similar ---


Power_divergenceResult(statistic=14.8, pvalue=0.011251979028327346)

### Two sample $\chi^2$ test

<img src='https://i.imgur.com/iVGsbfi.png'>

<https://en.wikipedia.org/wiki/Chi-squared_test>



#### 🍴Kaggle의 [Food Choice 데이터셋](https://www.kaggle.com/borapajo/food-choices?select=food_coded.csv)을 사용합니다.

데이터셋 내부에 여러 텍스트 데이터가 많아서 원래는 NLP를 사용해야 하지만, 지금은 categorical 분석을 위하여 부분만 사용하도록 하겠습니다.


In [9]:
import pandas as pd
food = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/food_choice/food_coded.csv')
food.head()

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,comfort_food,comfort_food_reasons,comfort_food_reasons_coded,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,2.4,2,1,430,,315.0,1,none,we dont have comfort,9.0,...,1.0,1.0,1,1165.0,345,car racing,5,1,1315,187
1,3.654,1,1,610,3.0,420.0,2,"chocolate, chips, ice cream","Stress, bored, anger",1.0,...,1.0,1.0,2,725.0,690,Basketball,4,2,900,155
2,3.3,1,1,720,4.0,420.0,2,"frozen yogurt, pizza, fast food","stress, sadness",1.0,...,1.0,2.0,5,1165.0,500,none,5,1,900,I'm not answering this.
3,3.2,1,1,430,3.0,420.0,2,"Pizza, Mac and cheese, ice cream",Boredom,2.0,...,1.0,2.0,5,725.0,690,,3,1,1315,"Not sure, 240"
4,3.5,1,1,720,2.0,420.0,2,"Ice cream, chocolate, chips","Stress, boredom, cravings",1.0,...,1.0,1.0,4,940.0,500,Softball,4,2,760,190


- 여러 데이터 중 `income`과 `pay_meal_out`, 그리고 `persian_food` 변수에 대해서만 사용해보도록 하겠습니다.

In [10]:
food[['income','pay_meal_out','persian_food']].dtypes

income          float64
pay_meal_out      int64
persian_food    float64
dtype: object

### Numerical -> Categorial 

#### Type casting

numerical 이지만, continuous하지 않아 바로 category로 사용 할 수 있는 경우. 

ex) 1, 2, 3 -> `1`, `2`, `3`

#### Binning

numerical 이지만, continuous 해서 구간별로 나누어 사용 할 수 있는 경우. 

ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> `A` : 1 ~ 2, `B` : 2 ~ 3, `C` : 3 ~ 4

이번 데이터에서는 윗 방식을 사용합니다.

In [11]:
small_food = food[['income','pay_meal_out','persian_food']].astype('category')

small_food.head()

Unnamed: 0,income,pay_meal_out,persian_food
0,5.0,2,5.0
1,4.0,4,4.0
2,6.0,3,5.0
3,6.0,2,5.0
4,6.0,4,2.0


## Run a $\chi^{2}$ Test (Numpy로 직접 계산)

가능한 3가지의 조합 중 2가지의 경우에 대해서만 해보겠습니다.

1) `income` & `pay_meal_out`

2) `pay_meal_out` & `persian_food`


In [12]:
obs = pd.crosstab(small_food['income'], small_food['pay_meal_out'])
obs

pay_meal_out,2,3,4,5,6
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,3,0,1,0
2.0,3,1,3,0,0
3.0,3,9,2,2,1
4.0,2,13,3,2,0
5.0,5,16,7,2,3
6.0,2,24,7,4,4


- Numpy로 계산하기에는 category가 너무 많으니 3, 4 데이터만 사용하도록 하겠습니다.

| |pay = 3|pay = 4|
|:-:|:-:|:-:|
|income = 3|9|2|
|income = 4|13|3|


### 예측값 계산
\begin{align}
expected_{i,j} =\frac{(row_{i} \text{total})(column_{j} \text{total}) }{(\text{total observations})}  
\end{align}

해당 내용에 대한 추가 설명과 예시는 urclass를 ( **2 Sample chi-square Expected Value** ) 참조하세요.

In [13]:
obs = np.array([[9, 2], [13, 3]])
obs

array([[ 9,  2],
       [13,  3]])

In [14]:
total_obs = np.sum(obs)
total_obs

27

In [15]:
exp = np.array([[(9+2)*(9+13), (9+2)*(2+3)], [(13+3)*(9+13), (13+3)*(2+3)]])

exp = exp / total_obs
exp

array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]])

### $\chi^{2}$ 통계치 계산

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

In [16]:
squared = np.power(obs - exp, 2)
squared

array([[0.00137174, 0.00137174],
       [0.00137174, 0.00137174]])

In [17]:
x2 = np.sum(squared / exp)
x2

0.0013946280991735537

2-sampe $\chi^2$ test의 자유도 (Degree of Freedom) 는 1-sample과는 조금 다릅니다.

1-sample (적합도 검정), DF = # categories-1

2-sample (독립성 검정), DF = (#행 - 1)*(#열 - 1)

DF: (2-1)*(2-1) = 1

## 자유도 (Degrees of Freedom)

🍦일주일 내내 배라를 가서 콘을 하나씩 먹는 방법 

<img src='https://img.insight.co.kr/static/2019/04/29/700/38bos292jy902138q5j7.jpg' width = 450>

**전체 메뉴는 7개만 이라고 가정**

- 월요일 - 7개의 선택 (민초)
- 화요일 - 6개의 선택 (바닐라)
- 수요일 - 5개의 선택 (녹차)
- 목요일 ...
- 일요일 - 선택지가 없음 🔥 (자유도 X)

따라서 이 문제에 대한 자유도는 n - 1 = 6

자유도 = 해당 parameter를 결정짓기 위한 **독립적으로 정해질 수 있는 값의 수.**

예시 

1) 일주일 동안 7종류의 아이스크림

2) 1-sample t-test를 위한 10개의 value. 

3) X2 test

4) regression 

## Scipy를 이용한 $\chi^{2}$ 테스트

1) 귀무가설 : 두 변수간 연관이 없다.

2) 대립가설 : 두 변수간 연관이 있다.

3) 신뢰구간 : 95% 

In [18]:
## 2 sample chi square test

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

print(exp)

from scipy.stats import chi2_contingency

print('---')
print(chi2_contingency(obs)) # correction 파라미터가 True로 설정 :  Yates’ correction 시행함 : pvalue는 약간 다름

print('---')
print(chi2_contingency(obs, correction = False)) # 위에서 계산한 것과 동일

[[ 8.96296296  2.03703704]
 [13.03703704  2.96296296]]
---
(0.0, 1.0, 1, array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]]))
---
(0.0013946280991735537, 0.9702101490749658, 1, array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]]))


## chi2_contingency 결과 해석

1 : $\chi^2$ statistic
2 : p-value
3 : degree of freedom
4 : expected value for Observed

### 다른 예시

In [19]:
obs2 = pd.crosstab(food['income'], food['persian_food'])
obs2

persian_food,1.0,2.0,3.0,4.0,5.0
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,1,0,1,2
2.0,1,1,1,0,4
3.0,3,5,4,2,2
4.0,3,3,8,4,2
5.0,8,6,8,5,6
6.0,12,10,8,4,7


In [20]:
obs3 = pd.crosstab(food['income'], food['pay_meal_out'])
obs3

pay_meal_out,2,3,4,5,6
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,3,0,1,0
2.0,3,1,3,0,0
3.0,3,9,2,2,1
4.0,2,13,3,2,0
5.0,5,16,7,2,3
6.0,2,24,7,4,4


In [21]:
# chi2_contingency

from scipy.stats import chi2_contingency

print(chi2_contingency(obs2, correction = False)) 

print(chi2_contingency(obs2, correction = True))

# 두 경우 모두 pvalue : 0.6269 연관이 없다.

(17.39813674425275, 0.6269901597010257, 20, array([[1.41463415, 1.26829268, 1.41463415, 0.7804878 , 1.12195122],
       [1.6504065 , 1.4796748 , 1.6504065 , 0.91056911, 1.30894309],
       [3.77235772, 3.38211382, 3.77235772, 2.08130081, 2.99186992],
       [4.71544715, 4.22764228, 4.71544715, 2.60162602, 3.7398374 ],
       [7.7804878 , 6.97560976, 7.7804878 , 4.29268293, 6.17073171],
       [9.66666667, 8.66666667, 9.66666667, 5.33333333, 7.66666667]]))
(17.39813674425275, 0.6269901597010257, 20, array([[1.41463415, 1.26829268, 1.41463415, 0.7804878 , 1.12195122],
       [1.6504065 , 1.4796748 , 1.6504065 , 0.91056911, 1.30894309],
       [3.77235772, 3.38211382, 3.77235772, 2.08130081, 2.99186992],
       [4.71544715, 4.22764228, 4.71544715, 2.60162602, 3.7398374 ],
       [7.7804878 , 6.97560976, 7.7804878 , 4.29268293, 6.17073171],
       [9.66666667, 8.66666667, 9.66666667, 5.33333333, 7.66666667]]))


In [22]:
print(chi2_contingency(obs3, correction = False)) 

print(chi2_contingency(obs3, correction = True))
# 두 경우 모두 pvalue : 0.428 마찬가지로 연관이 없다. 

(20.636176576151563, 0.41881793144098334, 20, array([[ 0.82258065,  3.19354839,  1.06451613,  0.53225806,  0.38709677],
       [ 0.95967742,  3.72580645,  1.24193548,  0.62096774,  0.4516129 ],
       [ 2.33064516,  9.0483871 ,  3.01612903,  1.50806452,  1.09677419],
       [ 2.74193548, 10.64516129,  3.5483871 ,  1.77419355,  1.29032258],
       [ 4.52419355, 17.56451613,  5.85483871,  2.92741935,  2.12903226],
       [ 5.62096774, 21.82258065,  7.27419355,  3.63709677,  2.64516129]]))
(20.636176576151563, 0.41881793144098334, 20, array([[ 0.82258065,  3.19354839,  1.06451613,  0.53225806,  0.38709677],
       [ 0.95967742,  3.72580645,  1.24193548,  0.62096774,  0.4516129 ],
       [ 2.33064516,  9.0483871 ,  3.01612903,  1.50806452,  1.09677419],
       [ 2.74193548, 10.64516129,  3.5483871 ,  1.77419355,  1.29032258],
       [ 4.52419355, 17.56451613,  5.85483871,  2.92741935,  2.12903226],
       [ 5.62096774, 21.82258065,  7.27419355,  3.63709677,  2.64516129]]))


In [23]:
# 극단적인 차이를 위해 가상의 값을 사용
chi2_contingency(np.array( [[3, 20], [17, 2]] ))

(21.399511129602665,
 3.7286624805140315e-06,
 1,
 array([[10.95238095, 12.04761905],
        [ 9.04761905,  9.95238095]]))