# 정규분포 가정

최근 잔차분석을 통한 정규성 검정보다 더 많이 인용되고 있는 기준

탐색적 데이터 분석 과정에서 모든 독립변수에 대해 `왜도와 첨도`를 검사한다.

`왜도` : 데이터 분포의 좌우 비대칭도를 표현하는 척도. 정규분포처럼 분포가 좌우대칭을 이룰수록 왜도값은 작아지고, 한 쪽으로 심하게 몰려 있으면 왜도값이 증가한다. 

`첨도` : 분포가 정규분포보다 얼마나 뾰족하거나 완만한지의 정도를 나타내는 척도. 데이터가 중심에 많이 몰려 있을수록 뾰족한 모양이 되고, 두루 퍼지면 구릉모양을 보이게 된다. 

## 다변량 분석에서 왜도와 첨도에 의한 정규분포 기준

West et al(1995)의 정규분포 기준은 |왜도| < 3, |첨도| <8 <br>
> West, S. G., Finch, J. F., & Curran, P. J. (1995). Structural equation models with nonnormal variables: Problems and remedies. In R. H. Hoyle (Ed.), Structural equation modeling: Concepts, issues, and applications (p. 56–75). Sage Publications, Inc.

Hong et al(2003)의 정규분포 기준은 |왜도| < 2, |첨도| < 4 <br>
> Hong, S., Malik, M. L., & Lee, M.-K. (2003). Testing configural, metric, scalar, and latent mean invariance across genders in sociotropy and autonomy using a non-Western sample. Educational and Psychological Measurement, 63(4), 636–654.

## #01. 작업준비

### 패키지 참조

In [1]:
from pandas import read_excel
from scipy.stats import skew, kurtosis

### 데이터 가져오기 + 회귀분석

In [3]:
df = read_excel("https://data.hossam.kr/E04/cars.xlsx")
df

Unnamed: 0,speed,dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16
5,9,10
6,10,18
7,10,26
8,10,34
9,11,17


### 왜도

분포의 비대칭도

|구분|내용|
|---|---|
|정규분포|왜도=0|
|왼쪽으로 치우침|왜도>0|
|오른쪽으로 치우침|왜도<0|

In [4]:
skew(df['speed'])

-0.11395477012828319

In [7]:
# 데이터프레임에서 한번에 볼 수 있다.
df.skew()

speed   -0.117510
dist     0.806895
dtype: float64

In [10]:
df.skew().abs()

speed    0.117510
dist     0.806895
dtype: float64

### 첨도

확률분포의 뾰족한 정도.

Fisher = True
- 첨도 기준이 Fisher(normal ==> 0.0) 이다.
- 정규분포의 첨도 = 0 이다.

|구분|내용|
|---|---|
|정규분포|첨도 = 0|
|위로 뾰족함|첨도 > 0|
|아래로 뾰족함|첨도 < 0|


Fisher = False
- 첨도 기준이 Pearson(noraml ==> 3.0)
- 정규분포의 첨도 =3 이다.

|구분|내용|
|---|---|
|정규분포|첨도 = 3|
|위로 뾰족함|첨도 > 3|
|아래로 뾰족함|첨도 < 3|

In [5]:
kurtosis(df['speed'], fisher=True)

-0.5771474239437371

In [8]:
df.kurtosis()

speed   -0.508994
dist     0.405053
dtype: float64

In [9]:
df.kurtosis().abs()

speed    0.508994
dist     0.405053
dtype: float64