# Chapter 3. 파이썬을 이용한 데이터 분석

## 3.9 평균값의 차이 검정


* 약을 먹기 전과 약을 먹은 후의 체온 차이가 의미있는 차이인지 알아보기


| 피경험자 | 약 먹기전 체온 | 약 먹은 후 체온 | 차이 |
| -------- | -------------- | --------------- | ---- |
| A        | 36.2           | 36.8            | 0.6  |
| B        | 36.2           | 36.1            | -0.1 |
| C        | 35.3           | 36.8            | 1.5  |
| D        | 36.1           | 37.1            | 1    |
| E        | 36.1           | 36.9            | 0.8  |


* 귀무가설: 약을 먹기 전과 후의 체온이 변하지 않는다
* 대립가설: 약을 먹기 전과 후의 체운이 다르다
* 유의수준 5%
    * p <= 0.05 : 귀무가설 기각

### 3.9.3. 분석준비

In [1]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시자릿수 지정
%precision 3
# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline

In [2]:
# 데이터 로드
paired_test_data = pd.read_csv(
    "3-9-1-paired-t-test.csv")
print(paired_test_data)

  person medicine  body_temperature
0      A   before              36.2
1      B   before              36.2
2      C   before              35.3
3      D   before              36.1
4      E   before              36.1
5      A    after              36.8
6      B    after              36.1
7      C    after              36.8
8      D    after              37.1
9      E    after              36.9


### 3.9.4. 대응표본 t검정

* 데이터의 차이를 보고 1집단 t검정 진행

In [3]:
# 약을 먹기 전과 후의 표본평균
before = paired_test_data.query(
    'medicine == "before"')["body_temperature"]
after = paired_test_data.query(
    'medicine == "after"')["body_temperature"]
# 배열형으로 변환
before = np.array(before)
after = np.array(after)
# 차이계산
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [4]:
# 평균이 0과 다른지 검정
# ttest_1samp: 1집단 t검정
stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

In [5]:
# t검정
stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

[결론]

p값이 0.05보다 작으므로 귀무가설은 기각된다.  
약을 먹기 전과 후의 체온은 유의미한 차이가 있다고 주장할 수 있다

### 3.9.6. 독립표본 t검정
* 평균값의 차이를 사용하여 t검정

In [6]:
# 평균값
mean_bef = np.mean(before)
mean_aft = np.mean(after)

# 분산
sigma_bef = np.var(before, ddof = 1)
sigma_aft = np.var(after, ddof = 1)

# 샘플사이즈
m = len(before)
n = len(after)

# t값
t_value = (mean_aft - mean_bef) / \
    np.sqrt((sigma_bef/m + sigma_aft/n))
t_value

3.1557282344421034

In [7]:
stats.ttest_ind(after, before, equal_var = False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)

[결론]

p값이 0.05보다 작으므로 귀무가설은 기각된다.  
약을 먹기 전과 후의 체온은 유의미한 차이가 있다고 주장할 수 있다

### [정리]

1. 대응표본 t검정(paired sample t-test)

   - 단일 모집단에 대해 두 번의 처리를 가했을 떄, 두 개의 처리에 대한 차이를 비교

   - stats.**ttest_rel**(after, before)

     

2. 독립표본 t검정(independent sample t-test)

   - 두 개의 독립된 모집단의 평균을 비교
   - stats.**ttest_ind**(after, before, equal_var = False)