# 정규분포 가정

최근 잔차분석을 통한 정규성 검정보다 더 많이 인용되고 있는 기준

`탐색적 데이터 분석 과정`에서 `모든 독립변수`에 대해 `왜도와 첨도를 검사`한다.

목표 : 데이터의 변수가 정규성을 충족하는지 확인

## 다변량 분석에서 왜도와 첨도에 의한 정규분포 기준

### West et al(1995)의 정규분포 기준은 |왜도| < 3, |첨도| < 8

> West, S. G., Finch, J. F., & Curran, P. J. (1995). Structural equation models with nonnormal variables: Problems and remedies. In R. H. Hoyle (Ed.), Structural equation modeling: Concepts, issues, and applications (p. 56–75). Sage Publications, Inc.

### Hong et al(2003)의 정규분포 기준은 |왜도| < 2, |첨도| < 4

> Hong, S., Malik, M. L., & Lee, M.-K. (2003). Testing configural, metric, scalar, and latent mean invariance across genders in sociotropy and autonomy using a non-Western sample. Educational and Psychological Measurement, 63(4), 636–654.

# 추가 설명

탐색적 데이터 분석(Exploratory Data Analysis, EDA) 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사하는 이유

- `데이터의 분포와 형태를 파악`하여 `데이터의 특성을 이해`하기 위함
- 왜도와 첨도는 `데이터의 분포 형태와 대칭성, 비대칭성 등을 설명하는 통계적 지표`
    - 왜도(Skewness)
    데이터의 `왜도가 크면`, `데이터가 더 비대칭적인 형태`를 가지며, 이는 `이상치(outlier)의 영향이나 데이터 특성을 파악하는데 유용`
    - 첨도(Kurtosis)
    데이터의 첨도를 검사함으로써 `이상치나 분포의 뾰족한 정도를 파악` 가능

## #01. 작업준비

### 패키지 참조

In [23]:
from pandas import read_excel
from scipy.stats import skew, kurtosis

### 데이터 + 회귀분석

In [24]:
df = read_excel("https://data.hossam.kr/E04/cars.xlsx")
df

Unnamed: 0,speed,dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16
5,9,10
6,10,18
7,10,26
8,10,34
9,11,17


### 왜도

 분포의 비대칭도.

| 구분 | 내용 |
|---|---|
| 정규분포 | $왜도=0$ |
| 왼쪽으로 치우침 | $왜도 > 0$ |
| 오른쪽으로 치우침 | $왜도 < 0$ |

In [25]:
skew(df['speed'])

-0.11395477012828319

### 첨도

 확률분포의 뾰족한 정도.

#### Fisher = True 

   - 첨도 기준이 Fisher (normal ==> 0.0) 이다.
   - 정규분포의 첨도 = 0이다. 


| 구분 | 내용 |
|---|---|
| 정규분포 | $첨도 = 0$ |
| 위로 뾰족함 | $첨도 > 0$ |
| 아래로 뾰족함 | $첨도 < 0$ |

#### Fisher = False

   - 첨도 기준이 Pearson (normal ==> 3.0)
   - 정규분포의 첨도 = 3이다.

| 구분 | 내용 |
|---|---|
| 정규분포 | $첨도 = 3$ |
| 위로 뾰족함 | $첨도 > 3$ |
| 아래로 뾰족함 | $첨도 < 3$ |

In [26]:
kurtosis(df['speed'], fisher=True)

-0.5771474239437371

## 02. 추가

### DF에서 바로 왜도/첨도 확인

In [27]:
df.skew()

speed   -0.117510
dist     0.806895
dtype: float64

In [28]:
df.kurtosis()

speed   -0.508994
dist     0.405053
dtype: float64

### 절대값 확인

In [29]:
df.skew().abs()

speed    0.117510
dist     0.806895
dtype: float64

In [30]:
df.kurtosis().abs()

speed    0.508994
dist     0.405053
dtype: float64