<a href="https://colab.research.google.com/github/jason96819/Studying/blob/main/statics/two_sample_mean_hypothesis_testing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 두 개의 모집단의 모평균 가설 검정 - 독립

이 검정은 두 개의 모집단의 표본들이 독립일 때 표본평균을 산출해 비교하는 검정입니다.

모분산을 알때와 모를때, 모를경우, 모집단이 대표본일 때와 소표본일 때로 나뉩니다.

In [1]:
import numpy as np
from scipy.stats import norm

## 모분산을 알 경우

$Z = \frac{\bar{X_1}-\bar{X_2}}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}$

$\bar{X_1} : 첫 번째 집단의 표본평균$
$\bar{X_2} : 두 번째 집단의 표본평균$

$σ_1^2 : 첫 번째 집단의 모분산$
$σ_2^2 : 두 번째 집단의 모분산$

$n_1 : 첫 번째 집단의 샘플수$
$n_2 : 두 번째 집단의 샘플수$

In [29]:
one_sam_mean = 130
two_sam_mean = 120

one_pop_var = 10
two_pop_var = 10

one_sam_size = 50
two_sam_size = 55

Z = (one_sam_mean - two_sam_mean) / np.sqrt((one_pop_var/one_sam_size) + (two_pop_var/two_sam_size))

print("Z-score :", Z)

# 양측 검정을 수행하기 때문에 5% 유의수준에서의 Z-score 임계값은 약 ±1.96
critical_value = norm.ppf(1 - 0.05/2)
print('\n유의수준 5%의 Z임계값 :',critical_value)

# 가설검정
if np.abs(Z) > critical_value:
    print("\n귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음")
else:
    print("\n귀무가설 채택: 두 그룹 간에 통계적으로 유의한 차이가 없음")

Z-score : 16.18347187425374

유의수준 5%의 Z임계값 : 1.959963984540054

귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음


## 모분산을 모를 경우 - 대표본

모분산을 몰라도 대표본이기에 Z분포를 사용합니다. 하지만, 모분산대신 표본분산을 사용합니다.

$Z = \frac{\bar{X_1}-\bar{X_2}}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$

$\bar{X_1} : 첫 번째 집단의 표본평균$
$\bar{X_2} : 두 번째 집단의 표본평균$

$σ_1^2 : 첫 번째 집단의 표본분산$
$σ_2^2 : 두 번째 집단의 표본분산$

$n_1 : 첫 번째 집단의 샘플수$
$n_2 : 두 번째 집단의 샘플수$

In [32]:
one_sam_mean = 130
two_sam_mean = 131

one_sam_var = 10
two_sam_var = 10

one_sam_size = 60
two_sam_size = 59

Z = (one_sam_mean - two_sam_mean) / np.sqrt((one_sam_var/one_sam_size) + (two_sam_var/two_sam_size))

print("Z-score:", Z)

# 양측 검정을 수행하기 때문에 5% 유의수준에서의 Z-score 임계값은 약 ±1.96
critical_value = norm.ppf(1 - 0.05/2)
print('\n유의수준 5%의 Z임계값 :',critical_value)

# 가설검정
if np.abs(Z) > critical_value:
    print("\n귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음")
else:
    print("\n귀무가설 채택: 두 그룹 간에 통계적으로 유의한 차이가 없음")

Z-score: -1.7247579296719835

유의수준 5%의 Z임계값 : 1.959963984540054

귀무가설 채택: 두 그룹 간에 통계적으로 유의한 차이가 없음


## 모분산을 모를 경우 - 소표본

모분산을 모르고 소표본이기에 자유도가 [n1 + n2 - 2]인 t분포를 사용합니다.

$t = \frac{\bar{X_1}-\bar{X_2}}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

$\bar{X_1} : 첫 번째 집단의 표본평균$
$\bar{X_2} : 두 번째 집단의 표본평균$

$n_1 : 첫 번째 집단의 샘플수$
$n_2 : 두 번째 집단의 샘플수$

$s_p : 합동표본표준편차$

$s_p = \sqrt\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$

In [43]:
sam1 = [41, 44, 42, 45, 49, 46, 48, 50, 42, 44, 46, 46, 47, 48, 47, 45]
sam2 = [40, 46, 42, 45, 45, 46, 42, 44, 40, 40, 44, 46, 42, 42, 44]

In [48]:
sam1_mean = np.mean(sam1)
sam2_mean = np.mean(sam2)
sam1_var = np.var(sam1)
sam2_var = np.var(sam2)
sam1_size = len(sam1)
sam2_size = len(sam2)

print('표본1과 표본2의 평균 :',sam1_mean,',',sam2_mean)
print('표본1과 표본2의 분산 :',sam1_var,',',sam2_var)
print('표본1과 표본2의 크기 :',sam1_size,',',sam2_size)

표본1과 표본2의 평균 : 45.625 , 43.2
표본1과 표본2의 분산 : 6.234375 , 4.5600000000000005
표본1과 표본2의 크기 : 16 , 15


In [49]:
sp = np.sqrt((((sam1_size-1)*sam1_var) + ((sam2_size-1)*sam2_var)) / (sam1_size+sam2_size-2))
print('합동표본표준편차 :',sp)

합동표본표준편차 : 2.3293896270230876


In [51]:
t_value = (sam1_mean - sam2_mean) / (sp * (np.sqrt((1/sam1_size) + (1/sam2_size))))
t_value

2.8966390401306463

In [52]:
from scipy.stats import t

In [54]:
# 자유도 29인 t-분포에서의 p-value 계산
degrees_of_freedom = sam1_size + sam2_size - 2
t_value = t_value
p_value = t.sf(np.abs(t_value), degrees_of_freedom) * 2                          # 양측검정을 위해 2를 곱해줍니다.

print('자유도 :', degrees_of_freedom)
print('t값 :', t_value)
print("p-value :", p_value)

alpha = 0.05
if p_value < alpha:
    print('귀무가설을 기각합니다. 두 그룹의 평균에 차이가 있다.')
else:
    print('귀무가설을 채잭합니다. 두 그룹의 평균에 차이가 없다.')

자유도 : 29
t값 : 2.8966390401306463
p-value : 0.00710489408561611
귀무가설을 기각합니다. 두 그룹의 평균에 차이가 있다.


### 모듈 사용

In [55]:
from scipy.stats import ttest_ind

In [56]:
sam1 = [41, 44, 42, 45, 49, 46, 48, 50, 42, 44, 46, 46, 47, 48, 47, 45]
sam2 = [40, 46, 42, 45, 45, 46, 42, 44, 40, 40, 44, 46, 42, 42, 44]

# 독립이표본 t-검정 수행
t_statistic, p_value = ttest_ind(sam1, sam2)

# 결과 출력
print("t-statistic:", t_statistic)
print("p-value:", p_value)

# 가설검정
alpha = 0.05                                                                     # 유의수준 5%
if p_value < alpha:
    print("귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음")
else:
    print("귀무가설 채택: 두 그룹 간에 통계적으로 유의한 차이가 없음")

t-statistic: 2.802122258979598
p-value: 0.00895212138821157
귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음


### 다른 문제

In [33]:
from scipy.stats import ttest_ind

In [34]:
# 두 독립된 표본 생성
np.random.seed(42)                                                               # 결과를 일정하게 유지하기 위해 시드 설정
sample1 = np.random.normal(loc=5, scale=2, size=100)                             # 평균 5, 분산 2, 크기 100
sample2 = np.random.normal(loc=7, scale=2, size=120)                             # 평균 7, 분산 2, 크기 120

# 독립이표본 t-검정 수행
t_statistic, p_value = ttest_ind(sample1, sample2)

# 결과 출력
print("t-statistic:", t_statistic)
print("p-value:", p_value)

# 가설검정
alpha = 0.05                                                                     # 유의수준 5%
if p_value < alpha:
    print("귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음")
else:
    print("귀무가설 채택: 두 그룹 간에 통계적으로 유의한 차이가 없음")

t-statistic: -9.282349796668713
p-value: 1.7161820700497027e-17
귀무가설 기각: 두 그룹 간에 통계적으로 유의한 차이가 있음


# 두 개의 모집단의 모평균 가설 검정 - 대응표본

분산이 알려지지 않고 정규분포를 따른다고 가정합니다.

$t = \frac{\bar{d}-μ_d}{s_d / \sqrt{n}} = \frac{\bar{d}}{s_d / \sqrt{n}}$

$\bar{μ_d} : 귀무가설에 따른 평균 차이 보통(0)$

$n : 대응표본의 크기$

$\bar{d} : 대응표본의 평균차이$ $\bar{d} = \frac{\sum^n_{i=1}d_i}{n}$

$s_d : 대응표본 차이의 표준편차$ $s_d = \sqrt{\frac{\sum^n_{i=1}(d_i-\bar{d})^2}{n-1}}$

In [17]:
d_list = [.8, .4, .6, .0, .1, .3]

In [30]:
d = np.mean(d_list)
n = len(d_list)

sum_list = []
for i in d_list:
    a = (i-d)**2
    sum_list.append(a)
sd = np.sqrt(sum(sum_list)/(n-1))

print('대응표본의 평균차이(d) :',d)
print('대응표본크기(n) :', n)
print('대응표본차이의 표준편차(s_d) :',sd)

t_value = (d) / (sd / (np.sqrt(n)))
print('t값 :',t_value)

대응표본의 평균차이(d) : 0.3666666666666667
대응표본크기(n) : 6
대응표본차이의 표준편차(s_d) : 0.30110906108363245
t값 : 2.9827937950065215


In [32]:
from scipy.stats import t

In [33]:
# 자유도 n-1인 t-분포에서의 p-value 계산
degrees_of_freedom = 6-1
t_value = t_value
p_value = t.sf(np.abs(t_value), degrees_of_freedom) * 2                          # 양측검정을 위해 2를 곱해줍니다.

print('자유도 :', degrees_of_freedom)
print('t값 :', t_value)
print("p-value :", p_value)

alpha = 0.05
if p_value < alpha:
    print('귀무가설을 기각합니다. 두 그룹의 평균에 차이가 있다.')
else:
    print('귀무가설을 채잭합니다. 두 그룹의 평균에 차이가 없다.')

자유도 : 5
t값 : 2.9827937950065215
p-value : 0.030700961912712755
귀무가설을 기각합니다. 두 그룹의 평균에 차이가 있다.


## 모듈 사용

In [34]:
from scipy.stats import ttest_rel

In [35]:
# 대응표본 데이터 생성 (가상의 예시)
before = [15, 18, 22, 25, 30]
after = [12, 20, 21, 24, 28]

# 대응표본 t-검정 수행
t_statistic, p_value = ttest_rel(before, after)

# 결과 출력
print("t-statistic:", t_statistic)
print("p-value:", p_value)

# 가설검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 대응표본의 모평균 차이는 0이 아니다.")
else:
    print("귀무가설 채택: 대응표본의 모평균 차이는 0이다.")

t-statistic: 1.1952286093343936
p-value: 0.2980148117312104
귀무가설 채택: 대응표본의 모평균 차이는 0이다.
