#### 2집단 데이터에 대한 t검정

#### 대응표본 t검정

In [None]:
# 같은 대상을 다른 조건으로 2번 측정해서 그 차이를 보는 경우 대응표본 t검정 사용 가능
# ex) 약을 먹기 전과 후에 체온 차이
# => 전과 후의 차이값이 "0"과 유의미한 차이가 있는지를 가지고 1집단 t검정을 시행

In [2]:
import pandas as pd
import numpy as np
import scipy as sp
from scipy import stats

import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

%matplotlib inline

In [1]:
%precision 3

'%.3f'

In [3]:
paired_test_data = pd.read_csv('C:/Users/KIHyuk/Desktop/파이썬으로 배우는 통계학 교과서 예제소스/3-9-1-paired-t-test.csv')

In [4]:
paired_test_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


In [None]:
# ** 유의수준(p값) => 귀무가설을 기각하는 기준이 되는 값
# p값이 0.05이내이면 귀무가설은 기각된다("유의미한 차이가 있다") 

In [None]:
# 대응표본 t검정 시행

# 귀무가설 : 약을 먹기 전과 후의 체온이 변하지 않는다
# 대립가설 : 약을 먹기 전과 후의 체온이 다르다
# 유의수준이 0.05보다 작으면 귀무가설은 기각되고, 약을 먹으면 체온이 유의미한 수준으로 변화한다고 볼 수 있다

In [8]:
# 약을 먹기 전과 후의 표본평균
before = paired_test_data.query("medicine == 'before'")['body_temperature']
after = paired_test_data.query("medicine =='after'")['body_temperature']

# 배열형으로 변환
before = np.array(before)
after = np.array(after)

# 차이 계산
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [10]:
# "차이"의 평균값이 0과 다른지 1집단 t검정으로 
stats.ttest_1samp(diff,0)

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

In [None]:
# p값이 0.05이내이므로 유의미한 차이가 있다고 주장할 수 있다

#### 독립표본 t검정

In [None]:
# 대응표본 t검정은 "데이터의 차이"를 보고 1집단 t검정을 함. 독립표본 t검정은 "평균값의 차이"에 주목함

# ex) 큰 바늘로 낚은 물고기와 작은 바늘로 낚은 물고기의 몸길이의 평균차이 

In [11]:
# 원래는 독립표본 데이터에 적용해야함

# 평균값
mean_bef = sp.mean(before)
mean_aft = sp.mean(after)

# 분산
sigma_bef = sp.var(before, ddof=1)
sigma_aft = sp.var(after, ddof=1)

# 샘플사이즈
m = len(before)
n = len(after)

# t값
t_value = (mean_aft - mean_bef) / sp.sqrt((sigma_bef/m+sigma_aft/n))
t_value

3.1557282344421034

In [12]:
# stats.ttest_ind 함수사용하여 간편하게
stats.ttest_ind(after, before, equal_var=False) # equal_var => False *Welch검정

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)