## 확률분포의 이해

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import numpy as np
import pandas as pd
from scipy import stats
from statsmodels import robust

### 정규분포를 따르는 무작위 값 생성

In [None]:
# 시드를 고정합니다.
np.random.seed(seed = 1234)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포를 따르는 무작위 표본을 생성합니다.
heights = stats.norm.rvs(loc = 175, scale = 5, size = 5000)

In [None]:
# heights(표본)의 평균을 출력합니다.
heights.mean()

In [None]:
# heights(표본)의 표준편차를 출력합니다.
heights.std()

### 정규분포 확률밀도

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 5)

In [None]:
# 모평균이 173인 정규분포에서 표본이 추출될 확률(가능도)을 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 173, scale = 5).prod()

In [None]:
# 모평균이 174인 정규분포에서 표본이 추출될 확률(가능도)을 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 174, scale = 5).prod()

In [None]:
# 모평균이 175인 정규분포에서 표본이 추출될 확률(가능도)을 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5).prod()

### 정규분포 누적확률

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 5)

In [None]:
# 두 지점 간 확률을 계산하려면 x 매개변수에 원소가 2개인 리스트를 할당합니다.
cdfs = stats.norm.cdf(x = [165, 185], loc = 175, scale = 5)
np.diff(a = cdfs)[0]

### 정규분포 확률변수값

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 누적확률이 0.7475인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.7475, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 누적확률이 0.8413인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.8413, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 누적확률이 0.9772인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.9772, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 5%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.95, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 1%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.99, loc = 175, scale = 5)

### 왜도와 첨도

In [None]:
# heights의 왜도를 반환합니다.
stats.skew(a = heights)

In [None]:
# heights의 첨도를 반환합니다.
stats.kurtosis(a = heights)

### 정규성 검정

In [None]:
# 5천 건 이하인 데이터의 정규성 검정은 사피로-윌크 검정을 실행합니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 가상의 키 데이터를 생성합니다.
np.random.seed(seed = 1234)
heights = stats.norm.rvs(loc = 175, scale = 5, size = 10000)

In [None]:
# 5천 건을 초과하는 데이터로 사피로-윌크 검정을 실행하면 반환되는 유의확률이 
# 정확하지 않다는 경고를 출력합니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 데이터의 정규성 검정은 앤더슨-달링 검정으로 대신합니다.
# [참고] 유의확률 대신 임계값을 반환합니다.
stats.anderson(x = heights)

### 데이터 표준화

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 15

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 10

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 5

In [None]:
# 홍길동의 영어와 수학의 표준화된 점수를 반환합니다.
print('영어 표준화된 점수:', (90 - 75) / 15)
print('수학 표준화된 점수:', (55 - 40) / 10)

### [참고] 이상치 탐지 방법 비교

In [None]:
# 표준화된 데이터의 절대값이 3을 초과하는 인덱스를 locs에 할당합니다.
locs = np.where(np.abs(stats.zscore(a = heights)) > 3)

In [None]:
# 평균과 표준편차 기준에서 이상치로 보이는 원소를 출력합니다.
heights[locs]

In [None]:
# 중위수를 med에 할당합니다.
med = np.median(a = heights)

In [None]:
# 중위수 절대편차를 mad에 할당합니다.
mad = robust.mad(a = heights)

In [None]:
# 개별 값에서 중위수를 차감하고 중위수절대편차로 나눈 값이 3을 초과하는
# 인덱스를 locs에 할당합니다.
locs = np.where(np.abs((heights - med) / mad) > 3)

In [None]:
# 중위수와 중위수절대편차 기준에서 이상치로 보이는 원소를 출력합니다.
heights[locs]

## End of Document