# 쌍체 표본 t검정 
---

- 목적 : 특정 실험 및 조치등의 효과가 유의한지 확인하기 위해 하는 검정
    - 일반적으로 실험전의 데이터와 실험후의 데이터를 비교하는 방식
    
    
![image](https://user-images.githubusercontent.com/74717033/134606468-e1282542-b4ae-4c4d-b825-89873366e6d6.png)

 
# 영 가설과 대립 가설
---
- $H_0 : d = 0$

- $H_1 : d > 0 $ or $ d < 0 $ or $d \neq 0$

# 쌍체 표본 t-검정의 선행 조건
---

- 실험 전 & 후의 측정 값 (X, Y)가 정규분포를 따르지 않아도 된다. 
    - 당연히 정규분포를 따르는 것도 상관 없다.
- 실험 전 & 후의 데이터에 샘플 수 ($n$)은 동일해야 한다.
- 주의 해야 할 점은, 측정 값의 차이인 $d$ 는 정규성을 갖고 있어야 한다.

# 쌍체 표본 t-검정의 검정 통계량
---

# $t$=$\bar{d}\over s_d/ \sqrt{n}$

- $\bar{d}$ : $d$의 표준 평균
- $s_d$ : $d$의 표준 편차
---

- $\bar{d}$ , 즉 X<->Y의 차이가 커질수록 t의 절대값이 커진다.
- $s_d$ 가 커질 수록 t의 절대값이 작아진다.

# 쌍체 표본 t-검정 코드 구현
---

- 정규성 검정 (KS test)
    - scipy.stats.kstest(x, 'norm')
    - pvalue가 특정 수치 미만이면 정규성을 따른다고 판단


- 쌍체 표본 t검정
    - scipy.stats.ttest_rel(a,b)
    - a는 실험 전 데이터, b는 실험 후 데이터
    - a와 b는 반드시 길이가 같아야 한다. (= 표본수 n이 동일해야 한다.)
    - pvalue가 특정 수치 미만이면 A그룹과 B그룹간의 차이가 존재한다고 판단.(= 실험 교과가 있다.)
    - statistics가 양수 : 양의 효과 ($d > 0$)가 있다고 판단.
    - statistics가 음수 : 음의 효과 ($d < 0$)가 있다고 판단.

In [None]:
# 기초 전처리
import pandas as pd
import numpy as np

# 시각화
import matplotlib.pyplot as plt
import seaborn as sns
import folium
import os

# 캔버스 사이즈 적용
plt.rcParams['figure.figsize'] = (12, 9)

# 컬럼 전체 확인 가능하도록 출력 범위 설정
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 10000)

# 불필요한 경고 표시 생략
import warnings
warnings.filterwarnings(action = 'ignore')

# pandas 결과값의 표현 범위 소수점 2자리수로 변경
pd.options.display.float_format = '{:.2f}'.format

# 파일 로드위한 directory 확인 및 현재 경로로 설정
a = os.getcwd()
os.chdir(a)

In [8]:
# 파일 로드위한 directory 확인 및 현재 경로로 설정
import os
a = os.getcwd()
os.chdir(a)

import pandas as pd
# pandas 결과값의 표현 범위 소수점 2자리수로 변경
pd.options.display.float_format = '{:.2f}'.format

np.set_printoptions(formatter={'float_kind': lambda x: "{0:0.3f}".format(x)})

In [2]:
df = pd.read_csv("다이어트약_효과검증.csv")

In [3]:
df.columns

Index(['다이어트전(kg)', '다이어트후(kg)'], dtype='object')

In [4]:
before = df['다이어트전(kg)']
after = df['다이어트후(kg)']

In [13]:
# 정규성 검정
from scipy.stats import *
kstest(after - before, 'norm')

KstestResult(statistic=0.7424620196514834, pvalue=7.04108433205159e-29)

- pvalue가 0에 가깝다. = after - before ($d$)는 정규분포를 따른다.
- 쌍수 표본 t-검정을 사용할 수 있다.

In [14]:
# 쌍체 표본 t-검정
ttest_rel(before, after) # 확실한 양의 효과가 있음을 확인 

Ttest_relResult(statistic=9.70596986565785, pvalue=5.370404098342324e-13)

- pvalue가 거의 0에 수렴한다. = 다이어트 약이 효과가 있다.
- statistics 가 양수 = 약의 효과가 양의 효과 이다. (감량이 되는 정도 일듯)