<a href="https://colab.research.google.com/github/Monsoon94/Statisctics-with-python/blob/main/%EB%B6%84%ED%8F%AC_%EA%B2%80%EC%A0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 분포 검정 방법
- 해당 표본이 특정 분포를 따르는지 검정하는 법에 대해 서술할 예정.

# 정규분포를 따르는가? 정규성 검정

## Jarque-Bera goodness of fit test

1. 통계량 :
<br/>
$$ JB =  \frac{n}{6} ( S^{2} +  \frac{1}{4}(K-3)^{2}  ) $$
<br/>
<br/>
- $n$ : 표본의 개수
- $S$ : 왜도
- $K$ : 첨도

<br/>
2. 설명

- $S^{2}$ : 왜도가 0에서 벗어난 정도를 측정

- $(K-3)^{2}$ : 첨도가 3에서 벗어난 정도는 측정



장점
- 왜도와 첨도라는 직관적인 지표를 사용하여 정규성을 평가합니다.
- 계산이 간단하며, 표본 크기가 크면 매우 유용합니다.

단점
- 표본 크기에 민감: 작은 표본에서는 왜도와 첨도 추정치가 불안정하여 검정력이 떨어질 수 있습니다.
- 정규성만 평가: 데이터의 다른 특성(예: 독립성, 등분산성)은 평가하지 않습니다.
- 극단값(outliers)에 민감.

추가사항
- Note that this test only works for a large enough number of data samples (>2000) as the test statistic asymptotically has a Chi-squared distribution with 2 degrees of freedom.
(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.jarque_bera.html#scipy.stats.jarque_bera)

- 검정 통계량은 항상 0 이상의 값을 가지며, 값이 0에서 멀어질수록 데이터가 정규분포를 따르지 않을 가능성을 시사합니다.

- 통계적으로, 데이터가 정규분포에서 나왔다면 JB 통계량(Jarque-Bera 통계량)은 자유도가 2인 카이제곱 분포를 점근적으로 따릅니다. 이를 기반으로 데이터가 정규분포에서 유래했는지 검정하는 데 사용할 수 있습니다.

- 귀무가설(null hypothesis): 데이터는 정규분포를 따른다. 이는 왜도(skewness)가 0이고 초과 첨도(excess kurtosis)가 0이라는 두 가지 가설을 동시에 검정하는 것입니다.

- p-value < alpha(0.05)이면 H0를 기각. 따라서 해당 데이터는 정규분포를 따르지 않음.
- p-value > alpha(0.05)이면 H0를 기각하지 못함. 따라서 해당 데이터는 정규분포를 따름

In [6]:
from scipy.stats import jarque_bera
import numpy as np

# 예제 데이터
norm = np.random.normal(10, 5, 1000)  # 평균 0, 표준편차 1인 정규분포를 따르는 데이터 100개 생성
uni = np.random.uniform(0,1,1000) # [균등분포] 최소 0, 최대 1, 개수 1000개

# Jarque-Bera 검정
jb_stat, p_value = jarque_bera(uni)

print(f"Jarque-Bera Statistic: {jb_stat}")
print(f"p-value: {p_value}")

# 결과 해석
if p_value < 0.05:
    print("데이터는 정규분포를 따르지 않습니다.")
else:
    print("데이터는 정규분포를 따릅니다.")

Jarque-Bera Statistic: 58.7908787209603
p-value: 1.7128640430446745e-13
데이터는 정규분포를 따르지 않습니다.


## Shapiro–Wilk 검정
Shapiro–Wilk 검정은 표본 데이터의 순위(rank)를 기반으로 정규분포로부터 생성된 데이터와 얼마나 유사한지를 측정합니다.

- H0 : 데이터가 정규분포를 따른다.

- 검정통계량 : $W$
$$ W=\frac{( \sum_{i=1}^n  a_{i} x_{(i)})^{2}}{\sum_{i=1}^n ( x_{i}- \overline{x}) ^{2}} $$


1. 검정 통계량 $W$
- $W$값은 0에서 1 사이의 값
- $W$값이 1에 가까울수록 데이터가 정규분포와 유사함.

2. p-value < 0.05이면 H0 기각. 따라서 데이터는 정규분포를 따르지 않음.

3. 장점
- 작은 표본에서도 효율적
- 비대칭 데이터에 민감함

4. 한계
- 표본 크기가 매우 크면($n>5000$) p-value가 항상 작아질 가능성이 있음
- 정규성이 미세하게 벗어난 차이도 검출해버릴 수 있음.
- 실제로 정규성을 만족하는 데이터라도, 해당 검정이 귀무가설을 기각할 가능성이 생김.
- 그에 따라 다른 정규성 검정을 병행하는 것이 바람직할 수 있음.



In [7]:
from scipy.stats import shapiro
import numpy as np

# 정규분포를 따르는 데이터
normal_data = np.random.normal(loc=0, scale=1, size=50)



# 2. Shapiro–Wilk 검정 수행
# 정규분포 데이터 검정
stat_normal, p_normal = shapiro(normal_data)
print("정규분포 데이터")
print(f"검정 통계량: {stat_normal}, p-value: {p_normal}")
if p_normal < 0.05:
    print("귀무가설 기각: 데이터는 정규분포를 따르지 않습니다.")
else:
    print("귀무가설 채택: 데이터는 정규분포를 따릅니다.")

정규분포 데이터
검정 통계량: 0.9786336984428368, p-value: 0.4958888140074745
귀무가설 채택: 데이터는 정규분포를 따릅니다.


In [8]:
# 정규분포를 따르지 않는 데이터 (지수분포)
non_normal_data = np.random.exponential(scale=1, size=50)

# 비정규분포 데이터 검정
stat_non_normal, p_non_normal = shapiro(non_normal_data)
print("\n비정규분포 데이터")
print(f"검정 통계량: {stat_non_normal}, p-value: {p_non_normal}")
if p_non_normal < 0.05:
    print("귀무가설 기각: 데이터는 정규분포를 따르지 않습니다.")
else:
    print("귀무가설 채택: 데이터는 정규분포를 따릅니다.")


비정규분포 데이터
검정 통계량: 0.753301964050664, p-value: 8.592375693786602e-08
귀무가설 기각: 데이터는 정규분포를 따르지 않습니다.


## Kolmogorov-Smirnov(KS) 검정
표본 데이터 분포와 기준 분포(정규분포 등) 또는 두 표본 데이터 분포를 비교하여 동일한 분포를 따르는지 검정하는 비모수(non-parametric) 검정 방법입니다.

1. 기본 아이디어
- KS 검정은 누적분포함수(CDF)의 최대 차이를 기반으로 테이서를 검정함.
- 첫 번째 경우 : 표본 데이터가 특정 분포를 따르는지 검정.
- 두 번째 경우 : 두 표본 데이터 분포가 동일한지 비교

2. 검정 통계량 : $D$

$$D =  \sup_x| F_{1}(x) -  F_{2}(x)  |$$

In [9]:
from scipy.stats import kstest, ks_2samp
import numpy as np

# 1. 데이터 생성
# 정규분포를 따르는 데이터
data_normal = np.random.normal(0, 1, 1000)

# 기준 분포 (정규분포)와 비교
statistic, p_value = kstest(data_normal, 'norm')
print("KS 검정 (표본 데이터 vs 정규분포)")
print(f"KS 통계량: {statistic:.4f}, p-value: {p_value:.4f}")
if p_value < 0.05:
    print("귀무가설 기각: 데이터는 정규분포를 따르지 않습니다.\n")
else:
    print("귀무가설 채택: 데이터는 정규분포를 따릅니다.\n")



KS 검정 (표본 데이터 vs 정규분포)
KS 통계량: 0.0252, p-value: 0.5421
귀무가설 채택: 데이터는 정규분포를 따릅니다.



In [10]:
# 2. 두 표본 데이터 비교
data_exponential = np.random.exponential(1, 1000)

statistic_2samp, p_value_2samp = ks_2samp(data_normal, data_exponential)
print("KS 검정 (두 표본 데이터 비교)")
print(f"KS 통계량: {statistic_2samp:.4f}, p-value: {p_value_2samp:.4f}")
if p_value_2samp < 0.05:
    print("귀무가설 기각: 두 데이터는 동일한 분포를 따르지 않습니다.\n")
else:
    print("귀무가설 채택: 두 데이터는 동일한 분포를 따릅니다.\n")

KS 검정 (두 표본 데이터 비교)
KS 통계량: 0.4790, p-value: 0.0000
귀무가설 기각: 두 데이터는 동일한 분포를 따르지 않습니다.



KS test를 활용한 포아송 분포 검정

1. 검정 과정
  1. 포아송 분포의 파라미터 추정
    - 포아송 분포는 단일 파라미터 $\lambda$(평균과 분산이 동일)를 사용하여 정의.
    - 데이터의 표본 평균($\overline{x}$)을 사용해 $\lambda$를 추정.
  2. 이론적 분포(CDF) 생성
    - 추정된 $\lambda$값으로 이론적인 포아송 분포의 누적분포함수(CDF)를 계산

  3. ECDF 계산
    - 표본 데이터에서 경험적 누적분포함수(ECDF)를 계산

  4. KS 검점 시행

- 포아송 분포는 이산형 분포입니다. 따라서 KS 검정에서 $D$ 계산이 약간의 불연속성 문제를 일으킬 수 있습니다.

- 이러한 경우, 포아송 분포에 특화된 Chi-Square 적합도 검정을 함께 사용하는 것이 좋습니다.


In [11]:
from scipy.stats import kstest, poisson
import numpy as np

# 1. 데이터 생성 (포아송 분포를 따르는 데이터)
np.random.seed(42)  # 재현성을 위해 고정
lambda_true = 5  # 실제 포아송 분포의 평균
data = np.random.poisson(lam=lambda_true, size=100)

# 2. 포아송 분포의 파라미터 추정
lambda_estimated = np.mean(data)

# 3. KS 검정 수행
# 이론적 포아송 분포와 표본 데이터 비교
statistic, p_value = kstest(data, lambda x: poisson.cdf(x, mu=lambda_estimated))

# 4. 결과 출력
print(f"추정된 λ (평균): {lambda_estimated:.4f}")
print(f"KS 통계량: {statistic:.4f}, p-value: {p_value:.4f}")
if p_value < 0.05:
    print("귀무가설 기각: 데이터는 해당 포아송 분포를 따르지 않습니다.")
else:
    print("귀무가설 채택: 데이터는 해당 포아송 분포를 따릅니다.")

추정된 λ (평균): 4.9400
KS 통계량: 0.1609, p-value: 0.0099
귀무가설 기각: 데이터는 해당 포아송 분포를 따르지 않습니다.
