## 3.9 평균값 차이 검정
### 3.9.2 Paired T-test (대응표본 t검정)

In [1]:
import numpy as np
import pandas as pd
import scipy as sp

import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [2]:
paired_test_data = pd.DataFrame({'person': ['A', 'B', 'C', 'D', 'E', 'A', 'B', 'C', 'D', 'E'],
                                 'medicine': ['before', 'before', 'before', 'before', 'before',
                                              'after', 'after', 'after', 'after', 'after'],
                                 'body_temperature': [36.2, 36.2, 35.3, 36.1, 36.1,
                                                   36.8, 36.1, 36.8, 37.1, 36.9]})
paired_test_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


$H_{0}$ : 전 후의 변화는 없다.\
$H_{1}$ : 전 후가 다르다.

In [3]:
before = paired_test_data.query('medicine == "before"')['body_temperature']
after = paired_test_data.query('medicine == "after"')['body_temperature']
before = np.array(before)
after = np.array(after)
diff = after-before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [4]:
# Calculate the t-test for the mean of ONE group of scores.
sp.stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

In [5]:
# Calculate the t-test on TWO RELATED samples of scores, a and b.
sp.stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

### 3.9.5 독립 표본 t-검정(Independent t-test, Two Samples t-test)
### $t=\frac{\hat\mu_{x}-\hat\mu_{y}}{\sqrt{{\hat\sigma_{x}^{2}/m}+{\hat\sigma_{y}^{2}/n}}}$

In [6]:
# mean of each other
mean_bef = np.mean(before)
mean_aft = np.mean(after)
# variance
sigma_bef = np.var(before, ddof=1)
sigma_aft = np.var(after, ddof=1)
# sample size
m = len(before)
n = len(after)
# t value
t_value = (mean_aft - mean_bef) / np.sqrt(sigma_aft/m + sigma_bef/n)
t_value

3.1557282344421034

In [7]:
# 함수를 이용한 독립표본 t-test
sp.stats.ttest_ind(after, before)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013481508481701042)

### 3.9.7 Homogeneity of variance 등분산성
등분산성은 분산분석(ANOVA)을 통해 서로 다른 두개 이상의 집단을 비교하고자 할때, 기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미하게 된다.
#### 가정
등분산성(等分散性,homoskedasticity)이외의 나머지 조건으로는 독립성(Independently)과 정규성(Normally)이 있으며, 세 가지를 모두 합쳐 NID(Normally, Independently, Distributed with mean of zero and common variance)라고도 약칭한다.


**but** 일부러 등분산을 알아볼 필요없이 항상 다르다고 가정한 t 검정을 사용해도 상관없다.\
즉, 언제나 **Welch** 검정을 사용해도 된다.\
**stats.ttest_ind** 함수에 **equal_var = False** 를 지정해서 넘기면, **Welch** 검정을 채택하는게 된다.
