# 검정

1. 단일표본 t검정 (One-Sample t-test)

In [1]:

import numpy as np
from scipy.stats import t
n = 100 # 표본개수
mu = 1500 # 모평균
x_bar = 1420 # 표본평균
s = 200 # 표본 표준편차


# t 검정통계량
stat = (x_bar-mu) / (s/np.sqrt(n))

# 임계치 alpha = 0.05  # 좌측 검정이기때문에 0.05
c_val = t.ppf(0.05,df=n-1)

print('H0: mu >= 1500')
print('H1: mu < 1500\n')
print('t-stat(검정통계량) = %.4f\ncritical value(임계치) = %.4f' % (stat,c_val))


if stat>c_val:
    print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')
else:
    print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')

H0: mu >= 1500
H1: mu < 1500

t-stat(검정통계량) = -4.0000
critical value(임계치) = -1.6604
유의수준 0.05에서 H0 기각하고, H1을 채택한다


2. 쌍체비교

In [2]:
import numpy as np
from scipy.stats import t

x_0 = [82,54,74,75,71,76,70,62,77,75,72,83,78,74,68,76,75,75,75,71]
x_1 = [75,50,74,71,69,73,68,62,68,72,70,77,71,74,67,73,77,71,76,74]
n = len(x_0) # 표본 개수

xd = sum(x_0) - sum(x_1) # x_0(전) - x_1(후) 합의 차이

xd_bar = xd / len(x_0) # 평균

a = []
for i in range(20):
    a.append(((x_0[i] - x_1[i]) - xd_bar)**2)
a = sum(a) # (개인별 몸무게 차이 - 개인별 몸무게 차이의 평균)^2

sd = np.sqrt(a/(n - 1)) # 표준편차

s_d_bar = sd/np.sqrt(n) # 표준오차
# 또는 (x_0 - x_1).std(ddof = 1)

In [3]:
mu = 0

# t 검정통계량
stat = (xd_bar - mu) / (sd/np.sqrt(n))

# 임계치 alpha = 0.95  # 우측검정이기에 0.95
c_val = t.ppf(0.95,df=n-1)

print('H0: mu <= 0 또는 mu = 0 ')
print('H1: mu > 0 \n')
print('t-stat(검정통계량) = %.4f\ncritical value(임계치) = %.4f' % (stat,c_val))


if stat>c_val:
    print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')
else:
    print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')

H0: mu <= 0 또는 mu = 0 
H1: mu > 0 

t-stat(검정통계량) = 3.6355
critical value(임계치) = 1.7291
유의수준 0.05에서 H0 기각하고, H1을 채택한다


In [4]:
# 쉽게 하기
from scipy.stats import ttest_rel

x_before = [82,54,74,75,71,76,70,62,77,75,72,83,78,74,68,76,75,75,75,71]
x_after = [75,50,74,71,69,73,68,62,68,72,70,77,71,74,67,73,77,71,76,74]
stat, p = ttest_rel(x_before, x_after)

print('H0 : mu_before <= mu_after')
print('H1 : mu_before > mu_after\n')

print('t-stat = %.4f\np = %.4f' % (stat,p))

if p > 0.05:
    print('H0 채택하고, H1을 기각한다')
else:
    print('H0 기각하고, H1을 채택한다')

H0 : mu_before <= mu_after
H1 : mu_before > mu_after

t-stat = 3.6355
p = 0.0018
H0 기각하고, H1을 채택한다


3. 두모집단 비교(Two_sample t-test)

In [5]:
from scipy.stats import ttest_ind

x_before = [82,54,74,75,71,76,70,62,77,75,72,83,78,74,68,76,75,75,75,71]
x_after = [75,50,74,71,69,73,68,62,68,72,70,77,71,74,67,73,77,71,76,74]
stat, p = ttest_ind(x_before, x_after)

print('H0 : mu_before <= mu_after')
print('H1 : mu_before > mu_after\n')

print('t-stat = %.4f\np = %.4f' % (stat,p))

if p > 0.05:
    print('H0 채택하고, H1을 기각한다')
else:
    print('H0 기각하고, H1을 채택한다')

H0 : mu_before <= mu_after
H1 : mu_before > mu_after

t-stat = 1.2863
p = 0.2061
H0 채택하고, H1을 기각한다


4. 두 모집단평균

In [6]:
import numpy as np
from scipy.stats import t
A_n = 30
A_x_bar = 48500
A_sd = 3600

B_n = 30
B_x_bar = 52000
B_sd = 4200

# t 검정통계량
stat = (A_x_bar - B_x_bar) / np.sqrt((A_sd**2/A_n) + (B_sd**2/B_n))

# 자유도
A_new = A_sd**2/A_n
B_new = B_sd**2/B_n
df = (A_new + B_new)**2 / ((A_new**2 / (A_n - 1)) + (B_new**2 / (B_n-1)))
print('자유도 :',df)

# 임계치 alpha = 0.05
c_val = t.ppf(0.05,df)

print('H0: muA = muB')
print('H1: muA != muB\n')
print('t-stat(검정통계량) = %.4f\ncritical value(임계치) = %.4f' % (stat,c_val))



if stat < 0:
    print(f'{stat:.4f} < {c_val:.4f} 이기 때문에')
    if stat < c_val:
        print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')
    else:
        print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')
else:
    print(f'{stat:.4f} > {c_val:.4f} 이기 때문에')
    if stat > c_val:
        print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')
    else:
        print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')    

자유도 : 56.674330538274276
H0: muA = muB
H1: muA != muB

t-stat(검정통계량) = -3.4655
critical value(임계치) = -1.6722
-3.4655 < -1.6722 이기 때문에
유의수준 0.05에서 H0 기각하고, H1을 채택한다


5. 단일 모집단분산

In [7]:
from scipy.stats import chi2

alpha = 0.05

import numpy as np
from scipy.stats import t
n = 30
n_sigma = 1.2
n_sd = 1.7


# chi2 검정통계량
stat = (n-1)*n_sd / n_sigma

# 임계치 alpha = 0.05
c_val_right = chi2.ppf(1-0.05/2,df = n-1)
c_val_left = chi2.ppf(0.05/2,df = n-1)
# print(c_val_left,c_val_right)

print('H0: sigma^2 = 1.2')
print('H1: sigma^2 != 1.2\n')
print('chi2-stat(검정통계량) = %.4f\ncritical value(임계치) = %.4f' % (stat,c_val))



if c_val_left < stat < c_val_right:
    print(f'{c_val_left:.4f} < {stat:.4f} < {c_val_right:.4f} 이기 때문에')
    if stat < c_val_right:
        print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')
    else:
        print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')
else:
    print(f'{c_val_left:.4f} > {stat:.4f} 또는\n {stat:.4f} > {c_val_right:.4f} 이기 때문에')
    if stat > c_val:
        print('유의수준 0.05에서 H0 기각하고, H1을 채택한다')
    else:
        print('유의수준 0.05에서 H0 채택하고, H1을 기각한다')    

H0: sigma^2 = 1.2
H1: sigma^2 != 1.2

chi2-stat(검정통계량) = 41.0833
critical value(임계치) = -1.6722
16.0471 < 41.0833 < 45.7223 이기 때문에
유의수준 0.05에서 H0 채택하고, H1을 기각한다


6. 두 모집단분산

In [8]:
from scipy.stats import f

n_a = 16
s2_a = 37.5

n_b = 20
s2_b = 98.6

stat = s2_a/s2_b

c_val = f.ppf(0.05,n_b-1, n_a-1)

print('H0: s2_a = s2_b')
print('H1: s2_a < s2_b\n')
print('F-stat(검정통계량) = %.4f\ncritical value(임계치) = %.4f' % (stat,c_val))


if stat > c_val:
    print('H0 채택하고, H1을 기각한다')
else:
    print('H0 기각하고, H1을 채택한다')

H0: s2_a = s2_b
H1: s2_a < s2_b

F-stat(검정통계량) = 0.3803
critical value(임계치) = 0.4476
H0 기각하고, H1을 채택한다
