# T-test +

t-test는 그룹의 평균값에 대해서 비교하는 가설검정방법임.

그러나 사실 t-test를 사용하기 위해서는 몇가지 조건이 가정되어야함.

다음 링크를 참조.

<http://www.incodom.kr/%EC%9D%B4%EB%A1%A0_%EB%B0%8F_T%EA%B2%80%EC%A0%95>

<https://dermabae.tistory.com/?page=26>

<img src='https://user-images.githubusercontent.com/6457691/89757774-2fc40280-db21-11ea-8de7-43d878f97efe.png' width='500'>

- 독립성 : 두 그룹이 연결되어 있는 (paired) 쌍인지

<img src='https://i.imgur.com/IPfYgXT.png'>

- 등분산성 : 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지

<img src='https://i.imgur.com/XpNvpqF.png'>

- 정규성: 데이터가 정규성을 나타는지

<img src='https://i.imgur.com/XsR0OW1.png'>


즉 t-test는 `특정한 조건에서` 그룹의 평균을 비교하기 위한 가설검정 방법이라는 것.

**그리고 이러한 내용들을 확인하기 위한 가설검정 방법들도 scipy에 이미 구현되어 있음.**

# 데이터의 정규성 확인

정규분포의 수학적 정의에 대해서는 다음 링크를 참조. 

<https://en.wikipedia.org/wiki/Normal_distribution>

In [1]:
from scipy.stats import normaltest
import numpy as np

sample = np.random.poisson(5, 1000) # normal 분포가 아님
normaltest(sample) 

NormaltestResult(statistic=34.89595463409002, pvalue=2.6450855978093445e-08)

In [2]:
sample2 = np.random.normal(size = 1000) # normal 분포
normaltest(sample2)

NormaltestResult(statistic=0.8487061219305972, pvalue=0.6541928711642353)

# Type of Error

<img src='https://i.imgur.com/JMCGnLZ.png'>

# Non-Parametric Methods

모집단이 특정 확률 분포 (normal과 같은)를 따른다는 전제를 **하지 않는** 방식.
parameter estimation이 필요하지 않기 때문에 non-parametric이라고 부름

- Categorical 데이터를 위한 모델링 
- 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식

- `distribution free` method라고 부르기도 함.

- Chisquare
- Spearman correlation
- Run test
- Kolmogorov Smirnov
- Mann-Whitney U
- Wilcoxon
- Kruskal-Wallis 

등

## Kruskal-Wallis Test (**비모수적** 평균 비교법)

다음 링크를 참조

<https://dermabae.tistory.com/168>

In [3]:
# Kruskal-Wallis H-test - 2개 이상 그룹의 중위 랭크를 통한 차이 비교 ( extended X2 )
# 샘플 수가 > 5 일때 좋음 
from scipy.stats import kruskal

x1 = [1, 3, 4, 8, 9]
y1 = [1, 4, 6, 7, 7]
kruskal(x1, y1) # 약간은 다르지만, "유의한" 차이는 아님

KruskalResult(statistic=0.01111111111111548, pvalue=0.91605107228188)

In [4]:
x2 = [12, 15, 18]
y2 = [24, 25, 26]
z = [40, 40]  # 3번째 그룹은 사이즈가 다름
kruskal(x2, y2, z)

KruskalResult(statistic=6.325301204819277, pvalue=0.042313436212501186)

# $\chi^2$ Tests

## One sample $\chi^2$ test

주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지 에 대한 가설검정.

Goodness of Fit test라 부르기도 함.

여기서 예상 되는 빈도의 값은 :

\begin{align}
\frac{\text{전체 데이터 수}}{\text{# 데이터의 종류}}
\end{align}

## $\chi^2$ 통계치 의 계산식

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

<img src='https://i.imgur.com/lbgezU0.png' width = 450>

각 차이의 값을 제곱하는 것으로, 모든 값을 양수로 만들고 관측과 예측값의 **차이**를 더 강조하는 효과가 있다.

# 통계치를 p-value로 바꾸는 방법

## P-value 계산을 위한 통계치 사용 : 

||A|B|
|:-:|:-:|:-:|
|X|9|2|
|Y|13|3|

(위 데이터는 계산을 하면 $\chi^2$ = `0.00139`가 나오고 자유도는 1이 나옴)

`stats.chi2.pdf(x2, df)` 


In [5]:
from scipy import stats

x2 = 0.00139

1 - stats.chi2.cdf(x2, df = ((2-1)*(2-1)) ) # pvalue : 0.97, 연관이 있다.

0.9702595963009745

In [6]:
import numpy as np
from scipy.stats import chisquare  

s_obs = np.array([[18, 22, 20, 15, 23, 22]]) # Similar
print('--- Similar ---')
chisquare(s_obs, axis=None) # One sample chi-square

--- Similar ---


Power_divergenceResult(statistic=2.3000000000000003, pvalue=0.8062668698851285)

In [7]:
ns_obs = np.array([[5, 23, 26, 19, 24, 23]])

print('--- not Similar ---')
chisquare(ns_obs, axis=None)

--- not Similar ---


Power_divergenceResult(statistic=14.8, pvalue=0.011251979028327346)

## Two sample $\chi^2$ test

## 🍴Kaggle의 [Food Choice 데이터셋](https://www.kaggle.com/borapajo/food-choices?select=food_coded.csv)을 사용

In [8]:
import pandas as pd
food = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/food_choice/food_coded.csv')
food.head()

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,comfort_food,comfort_food_reasons,comfort_food_reasons_coded,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,2.4,2,1,430,,315.0,1,none,we dont have comfort,9.0,...,1.0,1.0,1,1165.0,345,car racing,5,1,1315,187
1,3.654,1,1,610,3.0,420.0,2,"chocolate, chips, ice cream","Stress, bored, anger",1.0,...,1.0,1.0,2,725.0,690,Basketball,4,2,900,155
2,3.3,1,1,720,4.0,420.0,2,"frozen yogurt, pizza, fast food","stress, sadness",1.0,...,1.0,2.0,5,1165.0,500,none,5,1,900,I'm not answering this.
3,3.2,1,1,430,3.0,420.0,2,"Pizza, Mac and cheese, ice cream",Boredom,2.0,...,1.0,2.0,5,725.0,690,,3,1,1315,"Not sure, 240"
4,3.5,1,1,720,2.0,420.0,2,"Ice cream, chocolate, chips","Stress, boredom, cravings",1.0,...,1.0,1.0,4,940.0,500,Softball,4,2,760,190


- 여러 데이터 중 `income`과 `pay_meal_out`, 그리고 `persian_food` 변수에 대해서만 사용

In [9]:
food[['income','pay_meal_out','persian_food']].dtypes

income          float64
pay_meal_out      int64
persian_food    float64
dtype: object

## Numerical -> Categorial 

### Type casting

numerical 이지만, continuous하지 않아 바로 category로 사용 할 수 있는 경우. 

ex) 1, 2, 3 -> `1`, `2`, `3`

### Binning

numerical 이지만, continuous 해서 구간별로 나누어 사용 할 수 있는 경우. 

ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> `A` : 1 ~ 2, `B` : 2 ~ 3, `C` : 3 ~ 4

이번 데이터에서는 윗 방식을 사용.

In [10]:
small_food = food[['income','pay_meal_out','persian_food']].astype('category')

small_food.head()

Unnamed: 0,income,pay_meal_out,persian_food
0,5.0,2,5.0
1,4.0,4,4.0
2,6.0,3,5.0
3,6.0,2,5.0
4,6.0,4,2.0


## Run a $\chi^{2}$ Test (Numpy로 직접 계산)

가능한 3가지의 조합 중 2가지의 경우에 대해서만 수행.

1) `income` & `pay_meal_out`

2) `pay_meal_out` & `persian_food`


In [11]:
obs = pd.crosstab(small_food['income'], small_food['pay_meal_out'])
obs

pay_meal_out,2,3,4,5,6
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,3,0,1,0
2.0,3,1,3,0,0
3.0,3,9,2,2,1
4.0,2,13,3,2,0
5.0,5,16,7,2,3
6.0,2,24,7,4,4


- Numpy로 계산하기에는 category가 너무 많으니 3, 4 데이터만 사용

| |pay = 3|pay = 4|
|:-:|:-:|:-:|
|income = 3|9|2|
|income = 4|13|3|


### 예측값 계산
\begin{align}
expected_{i,j} =\frac{(row_{i} \text{total})(column_{j} \text{total}) }{(\text{total observations})}  
\end{align}

In [12]:
obs = np.array([[9, 2], [13, 3]])
obs

array([[ 9,  2],
       [13,  3]])

In [13]:
total_obs = np.sum(obs)
total_obs

27

In [14]:
exp = np.array([[(9+2)*(9+13), (9+2)*(2+3)], [(13+3)*(9+13), (13+3)*(2+3)]])

exp = exp / total_obs
exp

array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]])

### $\chi^{2}$ 통계치 계산

\begin{align}
\chi^2 = \sum \frac{(observed_i-expected_i)^2}{(expected_i)}
\end{align}

In [15]:
squared = np.power(obs - exp, 2)
squared

array([[0.00137174, 0.00137174],
       [0.00137174, 0.00137174]])

In [16]:
x2 = np.sum(squared / exp)
x2

0.0013946280991735537

2-sampe $\chi^2$ test의 자유도 (Degree of Freedom) 는 1-sample과는 조금 다름.

1-sample (적합도 검정), DF = # categories-1

2-sample (독립성 검정), DF = (#행 - 1)*(#열 - 1)

DF: (2-1)*(2-1) = 1

# 자유도 (Degrees of Freedom)

자유도 = 해당 parameter를 결정짓기 위한 **독립적으로 정해질 수 있는 값의 수.**

예시 

1) 일주일 동안 7종류의 아이스크림

2) 1-sample t-test를 위한 10개의 value. 

3) X2 test

4) regression 

# Scipy를 이용한 $\chi^{2}$ 테스트

1) 귀무가설 : 두 변수간 연관이 없다.

2) 대립가설 : 두 변수간 연관이 있다.

3) 신뢰구간 : 95% 

In [17]:
## 2 sample chi square test

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

print(exp)

from scipy.stats import chi2_contingency

print('---')
print(chi2_contingency(obs)) # correction 파라미터가 True로 설정 :  Yates’ correction 시행함 : pvalue는 약간 다름

print('---')
print(chi2_contingency(obs, correction = False)) # 위에서 계산한 것과 동일

[[ 8.96296296  2.03703704]
 [13.03703704  2.96296296]]
---
Chi2ContingencyResult(statistic=0.0, pvalue=1.0, dof=1, expected_freq=array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]]))
---
Chi2ContingencyResult(statistic=0.0013946280991735537, pvalue=0.9702101490749658, dof=1, expected_freq=array([[ 8.96296296,  2.03703704],
       [13.03703704,  2.96296296]]))


## chi2_contingency 결과 해석

1 : $\chi^2$ statistic

2 : p-value

3 : degree of freedom

4 : expected value for Observed

## 다른 예시

In [18]:
obs2 = pd.crosstab(food['income'], food['persian_food'])
obs2

persian_food,1.0,2.0,3.0,4.0,5.0
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,1,0,1,2
2.0,1,1,1,0,4
3.0,3,5,4,2,2
4.0,3,3,8,4,2
5.0,8,6,8,5,6
6.0,12,10,8,4,7


In [19]:
obs3 = pd.crosstab(food['income'], food['pay_meal_out'])
obs3

pay_meal_out,2,3,4,5,6
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,2,3,0,1,0
2.0,3,1,3,0,0
3.0,3,9,2,2,1
4.0,2,13,3,2,0
5.0,5,16,7,2,3
6.0,2,24,7,4,4


In [20]:
# chi2_contingency

from scipy.stats import chi2_contingency

print(chi2_contingency(obs2, correction = False)) 

print(chi2_contingency(obs2, correction = True))

# 두 경우 모두 pvalue : 0.6269 연관이 없다.

Chi2ContingencyResult(statistic=17.39813674425275, pvalue=0.6269901597010257, dof=20, expected_freq=array([[1.41463415, 1.26829268, 1.41463415, 0.7804878 , 1.12195122],
       [1.6504065 , 1.4796748 , 1.6504065 , 0.91056911, 1.30894309],
       [3.77235772, 3.38211382, 3.77235772, 2.08130081, 2.99186992],
       [4.71544715, 4.22764228, 4.71544715, 2.60162602, 3.7398374 ],
       [7.7804878 , 6.97560976, 7.7804878 , 4.29268293, 6.17073171],
       [9.66666667, 8.66666667, 9.66666667, 5.33333333, 7.66666667]]))
Chi2ContingencyResult(statistic=17.39813674425275, pvalue=0.6269901597010257, dof=20, expected_freq=array([[1.41463415, 1.26829268, 1.41463415, 0.7804878 , 1.12195122],
       [1.6504065 , 1.4796748 , 1.6504065 , 0.91056911, 1.30894309],
       [3.77235772, 3.38211382, 3.77235772, 2.08130081, 2.99186992],
       [4.71544715, 4.22764228, 4.71544715, 2.60162602, 3.7398374 ],
       [7.7804878 , 6.97560976, 7.7804878 , 4.29268293, 6.17073171],
       [9.66666667, 8.66666667, 9.66666

In [21]:
print(chi2_contingency(obs3, correction = False)) 

print(chi2_contingency(obs3, correction = True))
# 두 경우 모두 pvalue : 0.428 마찬가지로 연관이 없다. 

Chi2ContingencyResult(statistic=20.636176576151563, pvalue=0.41881793144098334, dof=20, expected_freq=array([[ 0.82258065,  3.19354839,  1.06451613,  0.53225806,  0.38709677],
       [ 0.95967742,  3.72580645,  1.24193548,  0.62096774,  0.4516129 ],
       [ 2.33064516,  9.0483871 ,  3.01612903,  1.50806452,  1.09677419],
       [ 2.74193548, 10.64516129,  3.5483871 ,  1.77419355,  1.29032258],
       [ 4.52419355, 17.56451613,  5.85483871,  2.92741935,  2.12903226],
       [ 5.62096774, 21.82258065,  7.27419355,  3.63709677,  2.64516129]]))
Chi2ContingencyResult(statistic=20.636176576151563, pvalue=0.41881793144098334, dof=20, expected_freq=array([[ 0.82258065,  3.19354839,  1.06451613,  0.53225806,  0.38709677],
       [ 0.95967742,  3.72580645,  1.24193548,  0.62096774,  0.4516129 ],
       [ 2.33064516,  9.0483871 ,  3.01612903,  1.50806452,  1.09677419],
       [ 2.74193548, 10.64516129,  3.5483871 ,  1.77419355,  1.29032258],
       [ 4.52419355, 17.56451613,  5.85483871,  2.9274

In [22]:
# 극단적인 차이를 위해 가상의 값을 사용
chi2_contingency(np.array( [[3, 20], [17, 2]] ))

Chi2ContingencyResult(statistic=21.399511129602665, pvalue=3.7286624805140315e-06, dof=1, expected_freq=array([[10.95238095, 12.04761905],
       [ 9.04761905,  9.95238095]]))

# Exercise

# 카이제곱검정 연습

In [23]:
import numpy as np
import pandas as pd
import scipy as sp

from scipy.stats import normaltest

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [26]:
filename = '/content/drive/MyDrive/DS_camp/session1/data.csv'

In [27]:
col = ['~60m2', '60~85m2', '85m2~']
row = ['서울', '대전', '대구', '부산']
df = pd.read_csv(filename, encoding= 'CP949', engine='python')
df = df.drop(['부문(1)', '시점'], axis = 1)
df.set_index('시도(1)')
df = df.drop(['시도(1)'], axis = 1)
df.columns = col
df

Unnamed: 0,~60m2,60~85m2,85m2~
0,54,2,0
1,577,735,142
2,782,1,0
3,143,1437,44


## 1. 지역에 대해서 one-sample chi-square test를 실행, 해당 결과를 `chi1`에 저장 후 설명하라.

예시) 만약 **9월달 데이터**를 기준으로 한다면
```python
 [52+2+0, 590+665+142, 113+1061+42, 772+1+0]
```
을 비교 하게 됨.

귀무가설: 지역별 미분양 주택 수는 서로 차이가 없다.

대립가설: 지역에 따라 미분양 주택 수에는 차이가 있다.

In [28]:
df[['~60m2', '60~85m2', '85m2~']].dtypes

~60m2      int64
60~85m2    int64
85m2~      int64
dtype: object

In [29]:
df = df.astype('category')
df

Unnamed: 0,~60m2,60~85m2,85m2~
0,54,2,0
1,577,735,142
2,782,1,0
3,143,1437,44


In [30]:
from scipy.stats import chisquare

df_sum = df.sum(axis=1)
df_sum

0      56
1    1454
2     783
3    1624
dtype: int64

In [31]:
chi1 = chisquare(df_sum, axis=None)
chi1

Power_divergenceResult(statistic=1564.4572376818994, pvalue=0.0)

p-value의 값이 0에 가까운 수로 나왔기 때문에 지역에 따라 미분양 주택 수에 차이가 있다고 할 수 있다.

## 2. 지역과 규모에 대해서 two-sample chi-square test를 실행, 해당 결과를 `chi2`에 저장 후 설명.

예시) **9월달 데이터**를 기준으로 한다면

| |-60 | 60-85 | 85- |
|:-:|:-:|:-:|:-:|
|서울|52|2|0|
|대전|772|1|0|
|대구|113|1061|42|
|부산|590|665|142|

에 대해서 검정해야 함.


In [32]:
from scipy.stats import chi2_contingency
#df = np.array(df)
chi2_contingency(df)

Chi2ContingencyResult(statistic=2064.5767314171994, pvalue=0.0, dof=6, expected_freq=array([[ 22.24559612,  31.09522594,   2.65917794],
       [577.59101353, 807.36533061,  69.04365586],
       [311.04110288, 434.77789124,  37.18100587],
       [645.12228746, 901.76155221,  77.11616033]]))

귀무가설: 지역별, 규모별 미분양 주택 수에는 차이가 없다.

대립가설: 지역별, 규모별 미분양 주택 수에는 차이가 있다.

마찬가지로 p-value가 0에 가깝게 나왔기 때문에 귀무가설을 기각하고 대립가설을 채택한다.


## 3. 2번에 대해서 NumPy 를 사용하여 (Scipy를 사용하지 않고) $\chi^2$ test 시행 후 2번의 결과와 비교하라. 

- `obs`, `exp`, `chi`라는 변수를 사용해야 함.

In [33]:
obs = df_sum
exp = obs/4

squared = np.power(obs - exp, 2)
chi = np.sum(squared/exp)
chi

8813.25

카이제곱값이 충분히 크게 나왔기 때문에 p-value도 0에 가까운 수 일 것이다. 따라서 검정의 결과 또한 2번과 동일하다.

In [34]:
from scipy import stats

1 - stats.chi2.cdf(chi, df=6)

0.0

## 4. 위에서 사용한 one sample chisquare test를 함수의 형태로 변경하라. 

In [35]:
v1 = [18,22,20,15,23,22]
v2 = [5,23,26,19,24,23]

def myChisq(val):
  obs = val
  exp = np.sum(obs) / len(obs)
  chi_squared = ((obs-exp)**2) / exp
  chi = chi_squared.sum()
  p_value = 1 - stats.chi2.cdf(chi, df = len(val)-1)
  return print(f'주어진 값 = {val}, 카이제곱값 = {chi} , p-value = {p_value}') 


myChisq(v1) 
myChisq(v2)

주어진 값 = [18, 22, 20, 15, 23, 22], 카이제곱값 = 2.3000000000000003 , p-value = 0.8062668698851285
주어진 값 = [5, 23, 26, 19, 24, 23], 카이제곱값 = 14.8 , p-value = 0.011251979028327308


## 5. ANOVA

아래 링크를 참조하여 ANOVA 에 대한 글을 읽고

<https://partrita.github.io/posts/ANOVA-python/>

다음 `4개 그룹에 대해서 평균의 차이가 있는지`에 대한 가설 검정을 시행하라.

A : `38 33 35 92 76 97 88 41 11  9`

B : `18 52 62 48 30 40 87 12 97 82`

C :  `28 90  5 49 66 73 96 80  4 17`

D : ` 8 99  4 12  7 64 18 10  9 20`

평균을 비교하는것이니 일원분산분석 수행

In [36]:
A = [38,33,35,92,76,97,88,41,11,9]
B = [18,52,62,48,30,40,87,12,97,82]
C = [28,90,5,49,66,73,96,80,4,17]
D = [8,99,4,12,7,64,18,10,9,20]

F_statistic, pVal = stats.f_oneway(A,B,C,D)
print(f'One-Way ANOVA result : F= {F_statistic}, p= {pVal}')

One-Way ANOVA result : F= 1.7249594239128412, p= 0.17920877113948797


그룹간 평균이 통계적으로 유의미한 차이가 있다고 보기 어렵다.

## 분산분석의 가정들에 대해 검정해보자
데이터의 수가 충분히 크다고 가정

### 1. 정규성

In [37]:
import scipy.stats
group = [A,B,C,D]
for i in group:
  print(scipy.stats.shapiro(i))

ShapiroResult(statistic=0.885586142539978, pvalue=0.15115396678447723)
ShapiroResult(statistic=0.9557748436927795, pvalue=0.7368332147598267)
ShapiroResult(statistic=0.9083371162414551, pvalue=0.26976341009140015)
ShapiroResult(statistic=0.67588210105896, pvalue=0.00045000086538493633)


D는 자료의 정규성을 벗어난다.

### 2. 독립성

독립성은 자료가 무작위로 선정되었다는 것을 전제하기 때문에 만족한다고 치자.

In [38]:
chiresult = chi2_contingency(group)
chiresult

Chi2ContingencyResult(statistic=638.7365228092165, pvalue=2.442992121906184e-117, dof=27, expected_freq=array([[26.47482014, 78.84892086, 30.50359712, 57.84172662, 51.51079137,
        78.84892086, 83.16546763, 41.15107914, 34.82014388, 36.83453237],
       [26.88212507, 80.06198118, 30.97288323, 58.73159934, 52.30326508,
        80.06198118, 84.44493636, 41.78417266, 35.35583841, 37.40121749],
       [25.86386276, 77.02933038, 29.79966796, 56.50691754, 50.3220808 ,
        77.02933038, 81.24626453, 40.20143885, 34.0166021 , 35.9845047 ],
       [12.77919203, 38.05976757, 14.72385169, 27.9197565 , 24.86386276,
        38.05976757, 40.14333149, 19.86330935, 16.80741561, 17.77974543]]))

근데 이원 카이제곱검정 결과 네 집단의 분포에 차이가 있다고 한다.

### 3. 등분산성

레빈과 바틀렛 검정

In [39]:
scipy.stats.levene(A,B,C,D)

LeveneResult(statistic=0.6298072073248161, pvalue=0.6005322704628497)

In [40]:
scipy.stats.bartlett(A,B,C,D)

BartlettResult(statistic=0.3353343608408931, pvalue=0.9532516440213127)

두 테스트 모두 네 집단의 모분산에 유의미한 차이를 발견하지 못했기 때문에 등분산성 만족