# 대응표본 t검정 (paired t-test)
- 대응(paired), 연관 : 동일인에 대해 두 번 측정하거나, 부모-자식처럼 관련있는 사람들에 대해 측정
    - 같은 사람으로부터 나온 데이터는 당연히 관련이 있을 수 밖에 없음

## 대응표본 t검정 표본평균 ($\mu_d$의 표본평균)
<img src="https://ifh.cc/g/AgFZ9y.jpg" width=500/>

<img src="https://ifh.cc/g/oxyPZr.jpg" width=700/>


[출처 : 대응표본의 가설검정하는 법](https://math100.tistory.com/95) 

## '대립가설'이 정확히 무엇인지 잘 따져야한다 !
- 양측검정의 경우에는 변수 순서가 유의하지 않지만, 단측검정의 경우 변수 순서가 바뀌면 값이 달라진다.
    - 양측검정 : 양측검정에서는 양측의 차이를 고려하므로 변수 순서에 따른 결과의 차이는 없음
    - 단측검정 : '특정 방향의 차이를 확인'하고자 할 때 사용되므로, 변수 순서에 따라 검정 결과가 영향을 받을 수 있음

## `ttest_rel()`

```python
from scipy.stats import ttest_rel

# 후, 전, 대립가설 방향은 임의로 지정
ttest_rel(df["후"], 
          df["전"], 
          alternative = "less") # 대립가설 방향. 옵션 : two_side(디폴트), less, greater
```

---

## Example 1 : 공식 예제
    
주어진 데이터는 고혈압 환자 치료 전후의 혈압이다. 해당 치료가 효과가 있는지 대응(쌍체)표본 t-검정을 진행하시오.
μ= (치료 후 혈압 - 치료 전 혈압)의 평균
- 귀무가설(H0):  $\mu \geq 0$
- 대립가설(H1):  $\mu < 0$


<img src="https://i.esdrop.com/d/f/3uJKEwVXJL/fuiUgcoB23.jpg" width=500>

In [3]:
import pandas as pd
from scipy import stats
df = pd.read_csv("./Data/high_blood_pressure.csv")
df.head()

Unnamed: 0,Id,sex,age,bp_pre,bp_post
0,p001,Male,33,149,129
1,p002,Male,39,168,168
2,p003,Male,70,176,155
3,p004,Female,41,169,178
4,p005,Male,48,160,126


In [5]:
df['diff'] = df['bp_post'] - df['bp_pre']

# 1
print("표본평균 : ", round(df['diff'].mean(), 2))

# 2 
tstat, pvalue = stats.ttest_rel(df['bp_post'], # 후 데이터
                         df['bp_pre'],        # 전 데이터
                         alternative="less") # 대립가설이 0보다 작음으로 설정, 따라서 less 옵션. 후-전<0 , 후<전
print("검정통계량 : ", round(tstat, 4))

# 3
print("p-value : ", round(pvalue, 4))

표본평균 :  -6.12
검정통계량 :  -3.0002
p-value :  0.0016


4번 답 : 기각
- p-value 값이 0.0016으로 유의수준 0.05보다 작기 때문에, 유의수준 0.05에서 귀무가설을 기각한다.
- 따라서 귀무가설 기각, 대립가설 채택하여 고혈압 환자 치료는 효과가 있다고 말할 수 있다.

## Example 2 : 단측검정
- [출처 : 데이터마님 빅분기 기출변형 3회 작업형3 예상문제](https://www.datamanim.com/dataset/practice/ex3.html#id4)

다이어트약의 전후 체중 변화 기록이다. A, B 공장에서 생산한 기계들의 rpm 값들을 기록한 데이터이다. 대응 표본 t 검정을 통해 B공장 제품들이 A 공장 제품들보다 rpm이 높다고 말할 수 있는지 검정하려한다.

- 2-1) A,B 공장 각각 정규성을 가지는지 샤피로 검정을 통해 확인하라. (각 공장의 pvalue 출력할 것)
- 2-2) A,B 공장 생산 제품의 rpm은 등분산성을 가지는지 levene 검정을 통해 확인하라. (각 공장의 pvalue 출력할 것) 
- 2-3) 대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. pvalue를 소숫점 이하 3자리까지 출력하라.
- 2-4) 위 검정 결과에 따라 귀무가설, 대립가설 중 하나를 출력하라.

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e3_p3_2_.csv')
df.head()

Unnamed: 0,rpm,group
0,163.6,A
1,246.9,A
2,234.9,A
3,156.9,A
4,226.6,A


### 1) shapiro 정규성 검정
- 귀무가설 : 표본의 모집단이 정규분포와 차이가 없다. (정규성을 만족한다.)
- 대립가설 : 표본의 모집단이 정규분포와 차이가 있다.

### 먼저 공장별로 데이터를 분할 !

In [None]:
# 공장별로 데이터 분할
# df['group'].value_counts() # 각 100개씩

factory_A = df[df["group"] =="A"]["rpm"]
factory_B = df[df["group"] =="B"]["rpm"]

In [None]:
# 1) 샤피로 정규성 검정
from scipy.stats import shapiro

# p-value만 뺴낼거면 s, p로 객체 할당해서 print(p)
A = shapiro(factory_A)
B = shapiro(factory_B)
print(A)
print(B)

ShapiroResult(statistic=0.9863898158073425, pvalue=0.397915244102478)
ShapiroResult(statistic=0.9943944811820984, pvalue=0.9562830924987793)


#### A공장, B공장 모두 귀무가설을 채택하여 정규성을 만족한다고 할 수 있다.

### 2) levene 등분산성 검정
- 귀무가설 (H0): 각 그룹의 모집단 분산은 동일하다.
- 대립가설 (H1): 적어도 하나의 그룹의 모집단 분산은 다른 그룹과 다르다.

In [None]:
# 2) levene 등분산성 검정
from scipy.stats import levene
s, p = levene(factory_A, factory_B)
print(round(p, 3))

0.904


#### p-value가 유의수준 0.05보다 크므로, 귀무가설을 기각하지 못한다. 따라서 등분산성을 만족한다고 할 수 있다.

### 3) 대응표본 t 검정
대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. pvalue를 소숫점 이하 3자리까지 출력하라.
- 귀무가설 : B공장 rpm이 A공장 rpm보다 작거나 같다.
- 대립가설 : B공장 rpm이 A공장 rpm보다 크다.

### 대립가설이 'B가 A보다 크다'이므로, 함수 매개변수 주의 !
- alternative = "greater" (크다)

In [None]:
# 3) 대응표본 t 검정
from scipy.stats import ttest_rel
s, p = ttest_rel(factory_B, factory_A, alternative = "greater")
print(round(p,3))

0.009


ttest_rel 함수에서 factory_B, factory_A의 순서가 바뀌면 값이 완전 달라진다 !!!

In [None]:
# 4) 유의한 가설은?
# 유의수준 0.05에서, p-value가 유의수준보다 작으므로 귀무가설을 기각한다. 따라서 차이가 있다고 말할 수 있다.
print("대립")

대립


## Example 3 : 양측검정
특정 질병 집단의 투약 전후의 혈류량 변화를 나타낸 데이터이다. 투약 전후의 변화가 있는지 검정하라.

- [출처 : 데이터마님 scipy paired t-test 문제](https://www.datamanim.com/dataset/97_scipy/scipy.html#t-paired)

In [18]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel3.csv')
df.head()

Unnamed: 0,before,after
0,253.566615,220.857837
1,195.080189,209.206667
2,228.29969,173.070057
3,279.417367,222.35698
4,230.06221,248.371045


### 대응표본 t검정
- 귀무가설 : 특정 질병 집단의 투약 전후 혈류량 변화는 없다. (투약 전후 혈류량 평균 차이가 없다. -> 즉, 평균이 같다.)
- 대립가설 : 특정 질병 집단의 투약 전후 혈류량 변화는 있다. (투약 전후 혈류량 평균 차이가 있다.)

### shapiro 정규성 검정
- 귀무가설 : 표본의 모집단이 정규분포와 차이가 없다. (정규성을 만족한다.)
- 대립가설 : 표본의 모집단이 정규분포와 차이가 있다.

In [20]:
# 정규성 확인
from scipy.stats import shapiro
before = shapiro(df["before"])
after = shapiro(df["after"])
print(before)
print(after)

ShapiroResult(statistic=0.9920635223388672, pvalue=0.7270597219467163)
ShapiroResult(statistic=0.992019534111023, pvalue=0.7229286432266235)


- before, after 모두 p-value가 유의수준 0.05보다 크므로, 귀무가설을 기각하지 않는다. 따라서 귀무가설을 채택하여, 정규성을 만족한다고 할 수 있다.

In [21]:
# 대응표본 t검정
from scipy.stats import ttest_rel
ttest_rel(df["before"], df["after"])

Ttest_relResult(statistic=0.188900575991026, pvalue=0.8504925317234707)

p-value가 유의수준 0.05보다 크므로, 귀무가설을 기각하지 않는다. 따라서 귀무가설을 채택하여, 전후 혈류량 변화가 없다고 할 수 있다.

## Example 4 : 윌콕슨 부호 검정
특정 집단의 학습 전후 시험 성적 변화를 나타낸 데이터이다. 시험 전과 후에 차이가 있는지 검정하라
- [출처 : 데이터마님 scipy paired t-test 문제](https://www.datamanim.com/dataset/97_scipy/scipy.html#t-paired)

In [3]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel1.csv')
df.head()

Unnamed: 0,before,after
0,153,162
1,153,163
2,158,159
3,157,158
4,167,160


In [6]:
# 정규성 검정
from scipy.stats import shapiro
s_a = shapiro(df["before"])
s_b = shapiro(df["after"])

print(s_a)
print(s_b)

ShapiroResult(statistic=0.9173726439476013, pvalue=0.001897332607768476)
ShapiroResult(statistic=0.9448971152305603, pvalue=0.021141061559319496)


- 두 데이터 모두 유의수준 0.05 보다 작으므로 귀무가설을 기각한다. 즉, 정규성을 따르지 않는다고 할 수 있다. 
-> 비모수 검정
- 대응표본의 경우 등분산성이 파라미터에 영향을 주지않음

In [9]:
from scipy.stats import wilcoxon
s, p = wilcoxon(df["before"], df["after"])
print(p)

0.12098409484052809


- 검정 결과, p-value가 0.12로 유의수준 0.05보다 크다. 따라서 귀무가설을 기각하지 않고, 특정 집단의 학습 전후 시험 성적의 평균은 같다고 할 수 있다. (차이가 없다)

In [11]:
from scipy.stats import ttest_rel
ttest_rel(df["before"], df["after"])

Ttest_relResult(statistic=-2.187138399865287, pvalue=0.03353471744538162)

- 대응표본 t검정 시에는 p-value가 0.05보다 작아서, 귀무가설을 기각하는 결과가 나온다.

## Example 5 : 단측검정
한 기계 부품의 rpm 수치를 두가지 다른 상황에서 측정했다.(총 70세트) b 상황이 a 상황보다 rpm값이 높다고 말할 수 있는지 검정하라
- [출처 : 데이터마님 scipy paired t-test 문제](https://www.datamanim.com/dataset/97_scipy/scipy.html#t-paired)

In [13]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel4.csv')
df.head()

Unnamed: 0,rpm,group
0,474.551593,a
1,450.54842,a
2,563.720934,a
3,506.886966,a
4,471.724049,a


In [15]:
# 일단 데이터 분할
df["group"].value_counts() # a, b 각각 70

a    70
b    70
Name: group, dtype: int64

In [17]:
grp_a = df[df["group"] == "a"]["rpm"]
grp_b = df[df["group"] == "b"]["rpm"]

from scipy.stats import ttest_rel
ttest_rel(grp_b, grp_a, alternative = "greater")

Ttest_relResult(statistic=1.9018108294460812, pvalue=0.030685663464464715)

- 귀무가설 : b <= a
- 대립가설 : b > a
- p-vlaue가 0.03으로 유의수준 0.05보다 작아, 귀무가설을 기각한다. 따라서 b가 a보다 높다고 말할 수 있다.