In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
%precision 3

'%.3f'

### 2집단 데이터에 대한 t검정
- 귀무가설 : 약을 먹기 전과 후의 체온이 변하지 않는다.
- 대립가설 : 약을 먹기 전과 후의 체온이 다르다.

In [2]:
paired_test_data = pd.read_csv("./sample/3-9-1-paired-t-test.csv")
paired_test_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


In [3]:
# 약을 먹기 전과 후의 표본평균
before = paired_test_data.loc[paired_test_data["medicine"] == "before", "body_temperature"]
after = paired_test_data.loc[paired_test_data["medicine"] == "after", "body_temperature"]

In [4]:
# 배열형으로 변환
before = np.array(before)
after = np.array(after)

# 차이 계산
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [5]:
# 차이값의 평균값이 0과 다른지 1집단 t검정으로 체크
stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

In [6]:
# p값이 0.05보다 작으므로 약을 먹기 전과 후의 체온은 유의미한 차이가 있다
stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

### 독립표본 t검정

In [10]:
# 평균값
mean_bef = np.mean(before)
mean_aft = np.mean(after)

# 분산
sigma_bef = np.var(before, ddof=1)
sigma_aft = np.var(after, ddof=1)

# 샘플사이즈
m = len(before)
n = len(after)

# t값
t_value = (mean_aft - mean_bef) / np.sqrt((sigma_bef/m + sigma_aft/n))
t_value

3.1557282344421034

In [12]:
# equal_var = False로 지정하여 Welch 검정을 채택한다. 등분산성을 알아보지 않고, 분산이 다르다고 가정.
stats.ttest_ind(after, before, equal_var=False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)