## 크러스칼-왈리스 검정의 개념 이해
3개 이상의 독립된 집단에서 비모수적으로 변수간 차이를 검정하는 방법 중 하나.<br>
일반적으로 ANOVA(분산분석)라는 방법을 사용하여 여러 집단 간의 차이를 검정하지만, 이는 정규분포를 따를 때만 적용이 가능하다. 그러나 크러스칼-왈리스 검정은 정규분포를 따르지 않는 비모수적인 자료에 대해서도 적용 가능하다.<br>
이 검정은 각 집단의 순위 합을 비교하여 집단 간 차이가 있는지 여부를 검정한다. 따라서, 순위 자료에 대한 비교에 적합하며, 집단 간 분산이 다르거나 표본 크기가 서로 다른 경우에도 적용 가능하다.
#### = 3개 이상의 독립된 집단에서 모집단 분포에 대한 가설을 검증할 때 사용하는 비모수적인 방법


### 크러스칼-왈리스 검정과 ANOVA의 차이점
둘 다 여러 개의 집단 간에 차이가 있는지를 검정하는 검정 방법이지만 두 검정의 차이점은 데이터의 분포에 대한 가정이다.
ANOVA는 모든 집단이 정규분포를 따르고, 분산이 서로 같다는 가정을 하고 진행. 반면, 크러스칼-왈리스는 정규분포를 따르지 않는 비모수적인 방법이기 때문에 데이터의 분포에 대한 가정이 필요하지 않다.

#### = ANOVA는 정규분포를 따르는 데이터에서 사용할 수 있으며, 크러스칼-왈리스 검정은 정규분포를 따르지 않는 데이터에서 사용할 수 있다.

절차 : 가설 설정 -> 유의 수준 결정 -> 데이터 입력 -> 순위 부여 -> 집단별 순위 합계 계산 -> 전체 순위 합계 계산 -> kruskal-Wallis H 검정 통계량 계산 -> p-value 계산 -> 결과 해석

#### 데이터의 가공과 검정을 위한 가정 확인
데이터 분석을 위한 가정 :
- 독립 변수와 종속 변수 간의 관계는 선형적이어야 한다.
- 독립 변수는 모두 서로 독립이어야 한다.
- 종속 변수의 잔차는 정규분포를 따라야 한다.
- 독립 변수 간의 공분산이 같아야 한다.

이 가정들은 모든 상황에서 만족될 수 없다. 따라서 이 가정들을 만족하지 않더라도 검정 결과가 유의미 할 수 있다. 하지만 이 가정들이 만족되지 않는 경우에는 검정 결과를 해석할 때 조심해야 한다.

In [1]:
import numpy as np 
from scipy.stats import kruskal

# 데이터 생성 
np.random.seed(1)
group1 = np.random.normal(loc=5, scale=1, size=20)
group2 = np.random.normal(loc=7, scale=1, size=25)
group3 = np.random.normal(loc=10, scale=1, size=15)

print(group1, group2, group3)

[6.62434536 4.38824359 4.47182825 3.92703138 5.86540763 2.6984613
 6.74481176 4.2387931  5.3190391  4.75062962 6.46210794 2.93985929
 4.6775828  4.61594565 6.13376944 3.90010873 4.82757179 4.12214158
 5.04221375 5.58281521] [5.89938082 8.14472371 7.90159072 7.50249434 7.90085595 6.31627214
 6.87710977 6.06423057 6.73211192 7.53035547 6.30833925 6.60324647
 6.3128273  6.15479436 6.32875387 6.9873354  5.88268965 7.2344157
 8.65980218 7.74204416 6.80816445 6.11237104 6.25284171 8.6924546
 7.05080775] [ 9.36300435 10.19091548 12.10025514 10.12015895 10.61720311 10.30017032
  9.64775015  8.8574818   9.65065728  9.79110577 10.58662319 10.83898341
 10.93110208 10.28558733 10.88514116]


In [2]:
H, p_val = kruskal(group1, group2, group3)

print("H 검정 통계량 : ",H)
print("p-val",p_val )

H 검정 통계량 :  46.584295081967184
p-val 7.6621182690351e-11


이 검정의 귀무 가설 : 모든 그룹의 중앙값이 같다.<br>
하지만 이 결과만으로는 어떤 그룹의 중앙값이 다른지 파악할 수 없다. 따라서 이후에는 사후분석을 수행해 어떤 그룹들이 중앙값이 다른지 알아내야 한다.

### 검정 결과 해석
- p-value가 작을수록 귀무가설을 기각하는 증거가 더 강해지며, 작은 p-value는 귀무가설이 참일 때 이 정도의 극단적인 검정통계량이 나타날 확률이 매우 작다는 것을 의미. 하지만 이 결정은 단순히 p값에 의존하는 게 아니라, 검정의 목적과 결과를 종합적으로 고려하여 판단해야 한다.
- 유의수준은 검정을 수행할 때 사용하는 임계값을 의미. 일반적으로 유읫준은 0.05로 설정하여, p값이 0.05보다 작을 경우 귀무가설을 기각하고 대립가설을 채택한다. 하지만 연구 목적이나 분야에 따라 유의수준이 다르게 설정될 수 있음. 따라서, kruskal-wallis 검정 결과를 해석할 때는 먼저 유의수준을 설정하고, 설정한 유의수준에 따라 p값을 비교하여 귀무가설을 기각할지 채택할지를 결정한다.

### 크러스칼-왈리스 검정의 한계
- 검정력 부족의 문제 : 실제로는 차이가 존재하는데도 검정 결과에서 그 차이를 감지하지 못하는 것
- 정규분포를 따르지 않는 경우 : 가능은 하지만, 모든 경우에 적용이 가능한 것이 아니다. 각 그룹의 데이터가 너무 적거나, 극단적인 값이 존재하는 경우, 데이터가 비대칭인 경우, 이상치가 있는 경우 등은 정규 분포를 따르지 않는 데이터의 검정에서도 문제가 될 수 있다.
- 대응 비교를 할 수 없는 경우 : 해당 검정은 여러 개의 독립적인 그룹 간에 차이가 있는지 검정하는 비모수 검정 방법이다.