모수검정 中 모분산 검정

- 단일 표본에 대한 모분산 검정
- 이표본에 대한 분산비 검정
- 다표본에 대한 Bartlett
- 다표본에 대한 Levene
- scipy.stats
- 귀무가설: 차이 없음

In [15]:
# 임의의 점수 데이터 생성
# 모분산이 1100보다 작다고 할 수 있는 주장의 입증을 위한 가설 검정
# (정규성 만족 가정)

# => 기준값과 비교하기에 단일 표본 검정
# => 더 작다를 입증하기에 좌측 검정
# => 정규성 만족하기에 모분산 검정 및 모수검정
# 단일 표본 분산 검정에는 카이제곱 분포 사용 (검정 통계량 게산 선행 필요)

import numpy as np
score = np.array([80.5, 60.2, 70, 87, 45, 91, 85])

# 검정 통계량: (df-1)*var/var0
var0 = 1100
var = np.var(score, ddof=1)
stat = (len(score)-1)*var/var0

from scipy.stats import chi2
# 누적 확률 (좌측 검정)
left = chi2.cdf(stat, len(score)-1)
# 우측 검정
right = 1-chi2.cdf(stat, len(score)-1)
# 양측 검정정
both = 2*chi2.cdf(stat, len(score)-1)

print(left, right, both)

# 결과: 0.041637780038918736 0.9583622199610813 0.08327556007783747
# 좌측 검정 p-value는 작음 -> 귀무가설 기각 -> 차이 존재 -> 더 작다고 할 수 있음
# 우측 검정 p-value 큼 -> 귀무가설 채택 -> 차이 없음 -> 동일
# 양측 검정 p-value 큼 -> 귀무가설 채택 -> 차이 없음 -> 동일

# 결론: 유의수준 5%에서 모분산이 기준값보다 작다고 할 수 있지만, 통계적으로 다르다고 하기는 어려움

0.041637780038918736 0.9583622199610813 0.08327556007783747


In [16]:
# 두 집단(a,b)에 대한 점수 데이터 임의 생성
# a 집단의 모분산이 b 집단의 모분산보다 작다고 할 수 있는가를 검정
# 가설: a 모분산 < b 모분산
# 정규성 만족 가정

# => 정규성 만족하기에 모수 검정
# => 더 작은가: 좌측 검정
# => 두 집단에 대한 모분산 비교: 분산비 검증
# 분산비 검증에는 F 분포 사용 (검정 통계량 계산 선행 필요)

import numpy as np

a = np.array([70, 80, 75, 65, 100, 98])
b = np.array([20, 100, 50, 94, 28, 80, 95, 30])

var1 = np.var(a, ddof=1)
var2 = np.var(b, ddof=1)
df1 = len(a)-1
df2 = len(b)-1

# 검정 통계량: var1/var2 (분산비)
stat = var1/var2

from scipy.stats import f
# 좌측 검정
left = f.cdf(stat, df1, df2)
# 우측 검정
right = 1 - f.cdf(stat, df1, df2)
# 양측 검정
both = f.cdf(stat, df1, df2) + (1-f.cdf(1/stat, df2, df1))

print(left, right, both)

# 결과: 0.04153943037562959 0.9584605696243704 0.08307886075125917
# 좌측 검정 p-value 작음 -> 귀무가설 기각 -> 차이 존재 -> a가 더 작다고 할 수 있음
# 우측 검정 p-value 큼 -> 귀무가설 채택 -> 차이 없음 -> 동일
# 양측 검정 p-value 큼 -> 귀무가설 채택 -> 차이 없음 -> 동일

# 결론: 유의수준 5%에서 a 집단의 모분산이 b 집단의 모분산보다 작다고 할 수 있지만, 통계적으로 다르다고 하기 어려움!


0.04153943037562959 0.9584605696243704 0.08307886075125917


In [19]:
# 임의로 세 그룹의 점수 데이터를 생성
# 생성된 표본들 간의 등분산성 확인을 위한 Bartlett 검정 수행
# 정규성 만족 가정

# => 세 그룹이기에 다표본 분산 검정 필요
# => 정규성 만족하기에 모수검정!
# Bartlett 검정: 정규성 만족 가정 필요!!

a = np.array([70, 80, 75, 65, 100, 98])
b = np.array([20, 100, 50, 94, 28, 80])
c = np.array([90, 97, 95, 94, 99, 100])

from scipy.stats import bartlett
bartlett(a,b,c)

# 결과: BartlettResult(statistic=15.6702722148674, pvalue=0.00039558846873743075)
# p-value 값이 작음 -> 귀무가설 기각 -> 차이 존재

# 결론: 그룹 간 분산에 유의미한 차이가 존재!

BartlettResult(statistic=15.6702722148674, pvalue=0.00039558846873743075)

In [21]:
# 임의로 세 그룹의 점수 데이터를 생성
# 생성된 표본들 간의 등분산성 확인을 위한 Levene 검정 수행
# 정규성 충족 X

# => 세 그룹: 다표본 분산 검증 필요
# => 정규성 충족하지 않기 때문에 Levene 검정 수행

a = np.array([70, 80, 75, 65, 100, 98])
b = np.array([20, 100, 50, 94, 28, 80])
c = np.array([90, 97, 95, 94, 99, 100])

from scipy.stats import levene
levene(a,b,c)

# 결과: LeveneResult(statistic=14.365736704446384, pvalue=0.00032713621045500125)
# p-value 값이 작음 -> 귀무가설 기각 -> 차이 존재

# 결론: 그룹 간 분산에 유의미한 차이가 존재!

LeveneResult(statistic=14.365736704446384, pvalue=0.00032713621045500125)