# 제 3유형 - 모평균 검정_모집단 2개

## ✅ 검정방법
### 1. 대응표본(쌍체) : 동일한 객체의 전 vs 후 평균 비교
- 정규성 O : 대응표본(쌍체) t 검정(paired t-test) : 동일한 객체의 전 vs 후 평균 비교 (전 후 매칭이 되어야 함-데이터 수도 같아야함)            
- 정규성 X : 윌콕슨 부호순위 검정(wilcoxon)         
### 2. 독립표본 : A 집단의 평균 vs B 집단의 평균
- 정규성 O : 독립표본 t검정(2sample t-test)            
- 정규성 X : 윌콕슨 순위합 검정 (ranksums)

### ✅ 가설검정 순서(중요!)
#### 1. 대응표본(쌍체) t 검정(paired t-test)
> 1. 가설 설정
> 2. 유의수준 확인
> 3. 정규성 검정 (주의! 차이값에 대한 정규성)
> 4. 검정실시(통계량, p-value 확인)
> 5. 귀무가설 기각여부 결정(채택/기각)

#### 2. 독립표본 t 검정(2sample t-test)
> 1. 가설 설정
> 2. 유의수준 확인
> 3. 정규성 검정 (주의! 두 집단 모두 정규성을 따를 경우)
> 4. 등분산 검정 (두 집단의 분산이 같은가)
> 5. 검정실시(통계량, p-value 확인) (주의! 등분산 여부 확인)
> 6. 귀무가설 기각여부 결정(채택/기각)

#### 예제 문제           
#### Case1) 대응표본(쌍체) t 검정(paired t-test)

문제 1-1. 다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.            
혈압약을 먹기 전, 후의 차이가 있는지 쌍체 t 검정을 실시하시오. (유의수준 5%)
- before : 혈압약을 먹기 전 혈압            
- after : 혈압약을 먹은 후 혈압     
- H0(귀무가설) : after - before = 0 
- H1(대립가설) : after - before ≠ 0 

In [1]:
import pandas as pd
import numpy as np

In [4]:
import scipy.stats as stats
from scipy.stats import shapiro

In [2]:
# 데이터 만들기
df = pd.DataFrame({
    'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] 
})
print(df.head())

   before  after
0     120    110
1     135    132
2     122    123
3     124    119
4     135    123


##### 1. 가설 설정
H0 : 약을 먹기 전과 후의 혈압 평균은 같다. (효과가 없다.)               
H1 : 약을 먹기 전과 후의 혈압 평균은 같지 않다. (효과가 있다.) → 혈압 평균의 증감에 대한 언급이 없으므로 양측 검정.

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정 ("차이값"에 대한 정규성 확인)

In [5]:
# 문제에서 쌍체t-test 진행하라고 바로 언급했다 = 정규성을 가정하고 있다. (생략 가능?)
statstic, pvalue = stats.shapiro(df['after'] - df['before'])
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.7363


- p-value = 0.7363으로 유의수준 0.05보다 크므로 귀무가설을 채택한다.            
→ 혈압약을 먹기 전 후 차이에 대한 데이터는 정규분포를 따른다.

##### 4. 검정실시(통계량, p-value 확인)

In [6]:
# 정규성이 있다 → 대응표본(쌍체) t 검정(paired t-test), ttest_rel(ated)
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='two-sided')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.0086


In [7]:
# 정규성이 없다 → 윌콕슨 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'], alternative='two-sided')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.0134


##### 5. 귀무가설 기각여부 결정
p-value=0.0086으로 유의수준 0.05보다 작으므로 귀무가설을 기각한다.              
→ 혈압약을 먹기 전과 후의 혈압 평균은 같지 않다.(효과가 있다.)

---------
문제 1-2. 다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.            
혈압약을 먹은 후 혈압이 감소했는지 확인하기 위해 쌍체 t 검정을 실시하시오. (유의수준 5%)
- before : 혈압약을 먹기 전 혈압            
- after : 혈압약을 먹은 후 혈압     
- H0(귀무가설) : after - before >= 0 
- H1(대립가설) : after - before < 0 

In [8]:
import pandas as pd
import numpy as np

In [9]:
# 데이터 만들기
df = pd.DataFrame({
    'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] 
})
print(df.head())

   before  after
0     120    110
1     135    132
2     122    123
3     124    119
4     135    123


##### 1. 가설 설정
H0 : 혈압약을 먹은 후 혈압이 감소하지 않았다. (after - before >= 0)             
H0 : 혈압약을 먹은 후 혈압이 감소했다. (after - before < 0)

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정

In [10]:
import scipy.stats as stats
from scipy.stats import shapiro

In [11]:
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.7363


p-value=0.7363으로 유의수준 0.05보다 높다.          
→ 귀무가설 채택 (전 후 데이터의 차이는 정규성을 따른다.)            
사실 문제에서 쌍체 t-test 검정 실시하라고 방향성 지시해서 안했어도 된다.

##### 4. 검정실시(통계량, p-value 확인)

In [12]:
# 4-1) 정규성을 따를때 : ttest_rel
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='less')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.0043


In [13]:
# 4-2) 정규성을 따르지 않을 때 : wilcoxon
statistic, pvalue = stats.wilcoxon(df['after'] - df['before'], alternative='less')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.0067


##### 5. 귀무가설 기각여부 결정
p-value=0.0043으로 유의수준 0.05보다 작으므로 귀무가설을 기각.          
→ 혈압약을 먹은 후 혈압이 감소했다고 할 수 있다.

-------
-------
#### Case2) 독립표본 t 검정(2sample t-test)
: 두 모집단에서 샘플을 추출한 뒤에 표본을 가지고 두 모집단의 평균을 비교

문제 2-1. 다음은 A 그룹과 B 그룹 인원의 혈압 데이터이다.            
두 그룹의 혈압 평균이 다르다고 할 수 있는지 독립표본 t 검정을 실시하시오. (유의수준 5%)
- A : A 그룹 인원의 혈압            
- B : B 그룹 인원의 혈압            
- H0(귀무가설) : A = B
- H1(대립가설) : A ≠ B

In [14]:
import pandas as pd
import numpy as np

In [15]:
# 데이터 만들기
df = pd.DataFrame({
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] 
})
print(df.head())

     A    B
0  120  110
1  135  132
2  122  123
3  124  119
4  135  123


##### 1. 가설 설정
H0 : A 그룹과 B 그룹의 혈압 평균은 같다. (A = B)            
H1 : A 그룹과 B 그룹의 혈압 평균은 같지 않다. (A ≠ B)

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정
H0 : 정규분포를 따른다.             
H1 : 정규분포를 따르지 않는다.          
각 샘플이 모두 정규분포를 따르는지 검정해봐야 함

In [16]:
import scipy.stats as stats
from scipy.stats import shapiro

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA, 4), round(pvalueA, 4))
print(round(statisticB, 4), round(pvalueB, 4))

0.9314 0.3559
0.9498 0.5956


A의 p-value=0.3559, B의 p-value=0.5956으로 둘 다 유의수준 0.05보다 크므로 귀무가설을 채택           
→ A와 B 모두 정규분포를 따른다.         
단, 만약 둘 중 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야함(윌콕슨의 순위합 검정 : ranksums)

##### 4. 등분산성 검정(가설 검정에 옵션으로 들어있기 때문에 미리 실시)  
H0 : 등분산 한다.               
H1 : 등분산 하지 않는다.            
두 그룹의 분산이 같지 않으면 평균을 비교하기 어려움 (데이터 퍼짐 정도가 비슷해야 평균 비교가 쉬움)

In [17]:
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.8673


p-value=0.8673으로 유의수준 0.05보다 크다           
→ 귀무가설 채택 (두 그룹의 분산은 같다.)

##### 5. 검정실시(통계량, p-value 확인)

In [18]:
# 5.1 (정규성 O, 등분산성 O/X) : t검정 (ttest_ind)
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='two-sided')
print(round(statstic, 4), round(pvalue, 4))

# (정규성 O, 등분산성 X) : equal_var=False로 설정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=False, alternative='two-sided')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.4207
0.9589 0.4208


In [19]:
# 5.2 (정규성 X) : 윌콕슨 순위합 검정 (비모수 검정)
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='two-sided')
print(round(statstic, 4), round(pvalue, 4))

0.9589 0.3975


##### 5. 귀무가설 기각여부 결정
p-value=0.4207로 유의수준 0.05보다 크므로 귀무가설을 채택한다.          
→ A 그룹과 B 그룹의 혈압 평균은 같다고 할 수 있다.

In [20]:
print(df['A'].mean())
print(df['B'].mean())

138.92307692307693
133.92307692307693


------
문제 2-2. 다음은 A 그룹과 B 그룹 인원의 혈압 데이터이다.
A 그룹의 혈압 평균이 B그룹보다 크다고 할 수 있는지 독립표본 t 검정을 실시하시오. (유의수준 5%)
- A : A 그룹 인원의 혈압            
- B : B 그룹 인원의 혈압            
- H0(귀무가설) : A <= B
- H1(대립가설) : A > B

In [None]:
import pandas as pd
import numpy as np

In [None]:
# 데이터 만들기
df = pd.DataFrame({
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] 
})
print(df.head())

   before  after
0     120    110
1     135    132
2     122    123
3     124    119
4     135    123


##### 1. 가설 설정
H0 : A 그룹의 혈압 평균이 B 그룹의 혈압 평균보다 높지 않다. (A <= B)            
H1 : A 그룹의 혈압 평균이 B 그룹의 혈압 평균보다 높다. (A > B)

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정
H0 : 두 샘플은 모두 정규분포를 따른다.          
H1 : 두 샘플 중 하나라도 정규분포를 따르지 않는다.

In [21]:
import scipy.stats as stats
from scipy.stats import shapiro

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA, 4), round(pvalueA, 4))
print(round(statisticB, 4), round(pvalueB, 4))

0.9314 0.3559
0.9498 0.5956


A 그룹의 p-value=0.3559, B 그룹의 p-value=0.5956으로 모두 유의수준 0.05보다 크므로 귀무가설을 채택.         
→ 두 그룹은 모두 정규분포를 따른다.

##### 4. 등분산성 검정
H0 : 두 그룹의 분산은 같다. (등분산한다)            
H1 : 두 그룹의 분산은 같지 않다. (등분산하지 않는다)

In [22]:
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic, 4), round(pvalue, 4))

0.0279 0.8673


p-value=0.8673으로 유의수준 0.05보다 크기 때문에 귀무가설을 채택            
→ 두 그룹은 등분산 한다.

##### 5. 검정실시(통계량, p-value 확인)

In [25]:
# 5.1 (정규성 O, 등분산성 O : ttest_ind
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

# 정규성 O, 등분산성 X : ttest_ind
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=False, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.2104
0.8192 0.2104


In [26]:
# 5.2 정규성 X
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.1987


##### 6. 귀무가설 기각여부 결정
p-value=0.2104로 유의수준 0.05보다 크므로 귀무가설을 채택           
→ A 그룹의 혈압 평균이 B 그룹의 혈압 평균보다 높다 할 수 없다.