# 정규분포 가정

최근 잔차분석을 통한 정규성 검정보다 더 많이 인용되고 있는 기준

탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사한다.

#### 다변량 분석에서 왜도와 첨도에 의한 정규본포 기준

West et al(1995)의 정규분포 기준은 |왜도| < 3, |첨도| < 8


> West, S. G., Finch, J. F., & Curran, P. J. (1995). Structural equation models with nonnormal variables: Problems and remedies. In R. H. Hoyle (Ed.), Structural equation modeling: Concepts, issues, and applications (p. 56–75). Sage Publications, Inc.

Hong et al(2003)의 정규분포 기준은 |왜도| < 2, |첨도| < 4


> Hong, S., Malik, M. L., & Lee, M.-K. (2003). Testing configural, metric, scalar, and latent mean invariance across genders in sociotropy and autonomy using a non-Western sample. Educational and Psychological Measurement, 63(4), 636–654.

In [1]:
from pandas import read_excel
from scipy.stats import skew,kurtosis

In [2]:
df=read_excel("https://data.hossam.kr/E04/cars.xlsx")
df.head()

Unnamed: 0,speed,dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16


## 왜도 skewness 
분포의 비대칭도

왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙ㅇ값, 최빈값이 모두 같다. 

|구분	|내용|
|--|--|
정규분포|	왜도
왼쪽으로 치우침|	왜도
오른쪽으로 치우침|	왜도



In [3]:
# 왜도 확인하기 - 개별
skew(df['speed'])

-0.11395477012828319

In [4]:
# 왜도 확인하기 - 전체
df.skew()

speed   -0.117510
dist     0.806895
dtype: float64

## 첨도

확률분포의 뾰족한 정도
값이 3에 가까울수록 정규분포 모양을 갖는다. 


Fisher = True

- 첨도 기준이 Fisher(nomal ==> 0.0) 이다.
- 정규 분포의 첨도 = 0 이다.

|구분	|내용|
|--|--|
|정규분포	|첨도|
|위로 뾰족함	|첨도|
|아래로 뾰족함	|첨도|

Fisher = False

- 첨도 기준이 Fisher(nomal ==> 0.0) 이다.
- 정규 분포의 첨도 = 0 이다.

|구분	|내용|
|--|--|
정규분포	|첨도
위로 뾰족함|	첨도
아래로 뾰족함|	첨도


In [5]:
# 첨도 확인하기 - 개별
kurtosis(df['speed'],fisher=True)

-0.5771474239437371

In [6]:
# 첨도 확인하기 - 전체
df.kurtosis()

speed   -0.508994
dist     0.405053
dtype: float64