# Chapter 7. 두 집단의 t검정 

t검정 종류
1. 대응표본 t검정(영어로는 Paired t-Test)
   : 사전 vs 사후 비교  
     동일한 대상에게 실험을 하고, 실험 전과 후에 결과가 차이가 있는지를 알아보는 방법  
     
       
       
2. 독립표본 t검정(영어로는 Independent t-Test)  
   : 서로 다른 두 집단 비교, 서로 다른 두 집단에서 뽑은 표본 간에 나타난 차이가 의미가 있는지를 알아보는 방법

### 대응표본 t검정(약을 먹기 전후 검증)

예를 들어보는 방법이 가장 좋습니다.
예를 들어, 같은 사람에게 신약을 먹게 하고 약을 먹기 전과 후의 고협압을 측정. 실제 피실험군 알바 경험

In [29]:
# 필요한 패키지, 모듈 불러오기
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 시각화 모듈 불러오기
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 소수점 3자리 설정
%precision 3
# 시각화
%matplotlib inline

In [30]:
# 데이터 불러오기
paired_test_data = pd.read_csv("blood_pressure_data.csv")
print(paired_test_data)

     Person Medicine  Blood Pressure
0         1    after             123
1         2    after             100
2         3   before             113
3         4   before             118
4         5   before             120
..      ...      ...             ...
195     196   before             107
196     197   before             105
197     198   before             107
198     199    after             110
199     200   before             110

[200 rows x 3 columns]


* 귀무가설 : 약을 먹기 전과 후의 혈압이 변하지 않는다.(일반적 사실)
* 대립가설 : 약을 먹기 전과 후의 혈압이 변한다.(새로운 사실)

In [32]:
# 약을 먹기 전과 후 데이터
before = paired_test_data.query('Medicine == "before"')["Blood Pressure"]
after = paired_test_data.query('Medicine == "after"')["Blood Pressure"]

# 넘파이 배열로 변환
before = np.array(before)
after = np.array(after)

# 약을 먹기 전후 혈압 차이
diff = after - before
diff

array([ 10, -18,   9, -12, -41,  16,   5,   2,   1,   8,   4,  -9,  -1,
        32,   9, -24,   0,   2,  18,   7,   6,  10,  -2,   4,  10,  -2,
         6,   4,   5,  14, -15,   2,  27,   6, -11,   9,  25,   9,   3,
       -11,  10,  16,  21,  -2,  21,   2, -22,  -3,  10,  22, -15,  -2,
         7,  -6,   1,  -8,  12,  -2,  35, -18,   3,  21,  16,  10,   6,
        -5,   4,  -8,  -7,  11,  14, -23,  -4,  18,  -5,   8,  -9,  -3,
        10, -13,   8,  10, -12,  21,  13,   9,  31,  15,   0, -11,  -6,
         6,  12,  14,  -5,  -3,  14,   2,  12,   0], dtype=int64)

In [33]:
# 차이값이 0과 같은지 다른지 1집단 t 검정으로 실행
# 차이가 0과 같다면 약을 먹기 전후 차이가 없다(약효가 없다)는 말입니다.
stats.ttest_1samp(diff, 0)

TtestResult(statistic=2.896269420315302, pvalue=0.004647889345834385, df=99)

t값은 2.89 이 나왔고, p값은 0.004 <0.05 가 나왔습니다.
귀무가설(혈압이 변하지 않는다)의 일반적인 사실을 기각하고, 약효가 있다는 결과가 나왔네요

In [35]:
# 이제 2 집단 t검정으로 해보겠습니다.
stats.ttest_rel(after, before)

TtestResult(statistic=2.896269420315302, pvalue=0.004647889345834385, df=99)

결과는 차이가 0으로 나타낸 1집단 t검정과 결과가 동일합니다.

귀무가설 : 약을 먹기 전과 후의 혈압이 변하지 않는다.(일반적 사실) 을 기각하고  
대립가설 : 약을 먹기 전과 후의 혈압이 변한다.(새로운 사실) 을 채택합니다.
    
쉽게 말해 약은 효과가 있습니다

### 독립표본 t 검정(서로 다른 두 집단 검증)

두 집단은 평균의 차이가 있나?

[수학기호를 LaTeX (라텍스)로 변환해주는 사이트](http://www.hostmath.com/)

$t = \frac{\overline{X_{a}} - \overline{X_{b}}}{\frac{{S_{a}}}{\sqrt{n_{a}}}+{\frac{{S_{b}}}{\sqrt{n_{b}}}}}$

In [36]:
# 평균 계산
mean_bef = np.mean(before)
mean_aft = np.mean(after)

In [37]:
# 분산 계산
# 거듭 말하지만 ddof는 자유도. ddof =0은 샘플수로 나눠주는 것. ddof=1은 샘플수-1 로 나눠주는 것
sigma_bef = np.var(before, ddof = 1)
sigma_aft = np.var(after, ddof = 1)

### ddof 란?
ddof인수란 표본표준편차 계산에 사용되는 분모인 n-ddof 값을 말합니다.  
이는 자유도 라고 하며 모표준편차와 표본 표준편차에서 반드시 발생하는 괴리율을 줄이기 위해 사용됩니다.

numpy.std의 ddof 는 n에서 몇을 뺀 값으로 나눌 것인가를 의미한다 (기본값 = 0, ddof =1은 (n-1)로 나눌 것을 의미함

In [38]:
# 샘플 수
n_a = len(before)
n_b = len(after)

# t값
t_value = (mean_aft - mean_bef) / \
    np.sqrt((sigma_bef/n_a + sigma_aft/n_b))
t_value

2.8023513133183866

In [39]:
# 독립표본 t검정은 t test independent 함수로 간단히 계산 가능.

In [40]:
stats.ttest_ind(after, before, equal_var = False)

Ttest_indResult(statistic=2.8023513133183866, pvalue=0.005578408996322435)

p값이 0.01<0.05 이라는 것은 두 집단간의 평균 차이가 유의미하다는 것을 의미.  
같은 데이터라고 하더라도 검정방법이 달라지면, p값도 달라집니다.  
거듭말하지만 p값이 더 작다고 해서 더 차이가 크다고 말할 수 있지는 않습니다.  

#  equal_var = False 인자값
t검정을 하기에 앞서 등분산성을 검정해야 하는데,  
equal_var = False 인자값은 분산이 다르다고 가정하고 welch 검정을 사용하겠다는 의미입니다.

In [41]:
# 아래는 데이터를 생성하는 코드입니다.

In [28]:
import numpy as np
from scipy.stats import ttest_ind
import csv

# 난수 시드 설정
np.random.seed(42)

# 데이터 생성
n = 100  # 샘플 수
mean_control = 120  # 먹지 않은 집단의 평균 혈압
std_control = 10  # 먹지 않은 집단의 표준 편차
mean_treatment = 115  # 먹은 집단의 평균 혈압
std_treatment = 10  # 먹은 집단의 표준 편차

# 각 집단의 혈압 데이터 생성 (정수로 변환하여 저장)
control_group = np.round(np.random.normal(mean_control, std_control, n)).astype(int)
treatment_group = np.round(np.random.normal(mean_treatment, std_treatment, n)).astype(int)

# t-검정 수행
t_statistic, p_value = ttest_ind(control_group, treatment_group)

# p 값이 0.05 이하가 될 때까지 반복
while p_value > 0.05:
    control_group = np.round(np.random.normal(mean_control, std_control, n)).astype(int)
    treatment_group = np.round(np.random.normal(mean_treatment, std_treatment, n)).astype(int)
    t_statistic, p_value = ttest_ind(control_group, treatment_group)

# 각 집단의 약 복용 여부 변수 생성
medicine = np.array(['after'] * n + ['before'] * n)

# 각 집단의 혈압 데이터를 합침
blood_pressure = np.concatenate([control_group, treatment_group])

# 데이터를 섞음
indices = np.arange(2*n)
np.random.shuffle(indices)
medicine = medicine[indices]
blood_pressure = blood_pressure[indices]

# 데이터를 CSV 파일에 쓰기
with open('blood_pressure_data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["Person", "Medicine", "Blood Pressure"])
    for i in range(2*n):
        writer.writerow([i+1, medicine[i], blood_pressure[i]])

# 결과 출력
print("CSV 파일이 성공적으로 저장되었습니다.")

# t-검정 결과 출력
print("\nT-Statistic:", t_statistic)
print("P-Value:", p_value)


CSV 파일이 성공적으로 저장되었습니다.

T-Statistic: 2.802351313318386
P-Value: 0.00557720482176704
