## 확률분포의 이해

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd
from scipy import stats
from GraphicSetting import *

### 정규분포를 따르는 무작위 값 생성

In [None]:
# 시드를 고정합니다.
np.random.seed(seed = 1234)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포를 따르는 무작위 표본을 생성합니다.
heights = stats.norm.rvs(loc = 175, scale = 5, size = 5000)

In [None]:
# heights(표본)의 평균을 출력합니다.
heights.mean()

In [None]:
# heights(표본)의 표준편차를 출력합니다.
heights.std()

### 정규분포 확률밀도

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 5)

In [None]:
# 모평균이 175인 정규분포에서 표본이 추출될 확률(가능도 곱)을 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5).prod()

In [None]:
# 모평균이 175인 정규분포에서 표본이 추출될 확률(로그 가능도 합)을 계산합니다.
np.log(stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5)).sum()

### [참고] 확률밀도곡선 시각화

In [None]:
# 확률변수값(x)을 생성합니다.
x = np.linspace(start = 130, stop = 220, num = 100 + 1)

In [None]:
# 확률변수값(x)에 대응하는 정규분포 확률밀도(y)를 생성합니다.
y1 = stats.norm.pdf(x = x, loc = 175, scale = 15)
y2 = stats.norm.pdf(x = x, loc = 175, scale = 10)
y3 = stats.norm.pdf(x = x, loc = 175, scale = 5)

In [None]:
# 확률변수값(x)에 대응하는 정규분포 확률밀도(y)로 곡선을 그립니다.
sns.lineplot(x = x, y = y1, label = 'Scale: 15')
sns.lineplot(x = x, y = y2, label = 'Scale: 10')
sns.lineplot(x = x, y = y3, label = 'Scale: 5')

### 정규분포 누적확률

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 5)

In [None]:
# 두 지점 간 확률을 계산하려면 x 매개변수에 원소가 2개인 리스트를 할당합니다.
cdfs = stats.norm.cdf(x = [165, 185], loc = 175, scale = 5)

In [None]:
# 두 확률변수값 사이의 확률을 계산합니다.
np.diff(a = cdfs)[0]

### 정규분포 확률변수값

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 누적확률이 0.748인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.748, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 누적확률이 0.841인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.841, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 누적확률이 0.977인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.977, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 5%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.95, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 1%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.99, loc = 175, scale = 5)

### 왜도와 첨도

In [None]:
# 왜도로 확률밀도곡선의 중심이 한 쪽으로 치우친 정도를 알 수 있습니다.
stats.skew(a = heights)

In [None]:
# 첨도로 확률밀도곡선의 봉우리가 뾰족한지 완만한지 여부를 알 수 있습니다.
stats.kurtosis(a = heights)

### 정규성 검정

In [None]:
# 5천 건 이하인 데이터의 정규성 검정은 사피로-윌크 검정을 실행합니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 가상의 키 데이터를 생성합니다.
np.random.seed(seed = 1234)
heights = stats.norm.rvs(loc = 175, scale = 5, size = 10000)

In [None]:
# 5천 건을 초과하는 데이터로 사피로-윌크 검정을 실행하면 유의확률이
# 정확하지 않다는 경고를 출력합니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 데이터의 정규성 검정은 앤더슨-달링 검정을 실행합니다.
# [참고] 이 함수는 유의확률 대신 임계치를 반환합니다.
stats.anderson(x = heights)

### 데이터 표준화

In [None]:
# 데이터를 표준화하는 함수를 생성합니다.
def scale(x, loc, scale):
    return (x - loc) / scale

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 5)

### [참고] 이상치 탐지

In [None]:
# heights를 시리즈로 변환하고 hgts에 재할당합니다.
hgts = pd.Series(data = heights)

In [None]:
# hgts를 표준화한 결과를 scaled에 할당합니다.
scaled = scale(x = hgts, loc = 175, scale = 5)

In [None]:
# scaled의 절대값이 3을 초과하면 True, 아니면 False인 locs에 할당합니다.
locs = np.where(np.abs(scaled) > 3)

In [None]:
# hgts에서 locs가 True인 원소를 outs에 할당합니다.
outs = hgts[locs[0]]

### [참고] 이상치 시각화

In [None]:
# 중심(평균)에서 ±3 표준편차 바깥에 있는 점을 이상치로 시각화합니다.
plt.figure(figsize = (12, 4))
sns.scatterplot(x = hgts.index, y = hgts, c = '0.8', s = 15, alpha = 0.2)
sns.scatterplot(x = outs.index, y = outs, c = 'red')
plt.axhline(y = 175, color = '0', lw = 0.5, ls = '-')
plt.axhline(y = 190, color = '0', lw = 0.5, ls = '--')
plt.axhline(y = 160, color = '0', lw = 0.5, ls = '--')

## End of Document