In [1]:
import numpy as np

# 귀무가설 : 데이터가 정규분포를 따른다

## 1. shapiro, normaltest, jarque_bera
scipy.stats.shapiro(x)
scipy.stats.normaltest(x, axis=0, nan_policy='propagate')
scipy.stats.jarque_bera(x, *, axis=None, nan_policy='propagate', keepdims=False)

- parameters
    - x : array-like
- returns 
    - statistic
    - pvalue

In [2]:
from scipy.stats import shapiro, normaltest, jarque_bera

x = np.array([148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236])

shapiro_stat, shapiro_pval = shapiro(x)
norm_stat, norm_pval = normaltest(x)
jarque_stat, jarque_pval = jarque_bera(x)

dit =  {'shapiro' : shapiro(x),
          'normaltest': normaltest(x),
          'jarque_bera': jarque_bera(x)}

for key, (stat, pval) in zip(dit.keys(), dit.values()):
    print(f'{key}_stat = {stat}')
    print(f'{key}_pval = {pval}\n')


shapiro_stat = 0.7888146638870239
shapiro_pval = 0.006703815422952175

normaltest_stat = 13.034263121192582
normaltest_pval = 0.0014779023013100172

jarque_bera_stat = 6.982848237344646
jarque_bera_pval = 0.030457466224581897





## 2. anderson
scipy.stats.anderson(x, dist='norm')
- parameters
    - x : array-like
    - dist : 검정하고자 하는 분포. default는 'norm'으로, 정규성 검정이 디폴트임
- returns
    - statistic : 검정통계량
    - critical_values : 임계값
    - significance_level : 유의수준
- 확인하고자 하는 유의수준에 대응하는 임계값을 찾는다
    - 임계값 > 검정통계량 : 대립가설 채택 = 정규분포 따름
    - 임계값 < 검정통계량 : 귀무가설 기각 = 정규분포 따르지 않음

In [3]:
from scipy.stats import anderson

data = [1, 2, 2, 3, 3, 3, 4, 4, 5]

stat, critical_vals, sig_lvs = anderson(data)

print(f"검정통계량: {stat}")
print(f"임계값 : {critical_vals}")
print(f"유의수준 : {sig_lvs}")

검정통계량: 0.2609858431763481
임계값 : [0.507 0.578 0.693 0.808 0.961]
유의수준 : [15.  10.   5.   2.5  1. ]


## 3. kstest
scipy.stats.kstest(rvs, cdf, args=(), N=20, alternative='two-sided', method='auto')
- parameters
    - rvs : 대상 데이터 (1차원 배열)
    - cdf 
        - str, array-like, callable. str인 경우 scipy.stats의 분포 이름이어야 하며, 이 이름은 cdf 함수로 사용됨
        - 정규성 검정에는 'norm'을 넣어주면 됨
        - 'norm.cdf'를 넣어줘도 됨
- returns
    - statistic : 검정통계량
    - pvalue : p값

In [6]:
from scipy.stats import kstest
import pandas as pd

x = np.random.normal(0,1,1000)
stat, pval = kstest(x , 'norm')

print(f'검정통계량: {stat}')
print(f'p-value: {pval}')

검정통계량: 0.024574853981643108
p-value: 0.5731416330155481


In [7]:
data = pd.read_csv('./data/ex7-2.csv')

kstest의 두 가지 방법

In [15]:
# 1. 표준 정규분포로 검정
kstest(data.X, 'norm')

KstestResult(statistic=1.0, pvalue=0.0)

In [16]:
# 2. args에 평균과 표준편차를 넣어주는 방식. 정규분포로 검정
kstest(data.X, 'norm', args=(data.X.mean(), data.X.std()))

KstestResult(statistic=0.08107085426241684, pvalue=0.8711621942265746)