# 확률분포의 이해

### 정규분포를 따르는 임의의 수 생성

In [None]:
# 관련 라이브러리를 호출합니다.
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
# 시드를 고정합니다.
np.random.seed(seed = 1234)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포를 따르는 임의의 수를 생성합니다.
heights = stats.norm.rvs(loc = 175, scale = 5, size = 5000)

In [None]:
# heights를 출력합니다.
heights

### 정규분포 확률밀도

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 5)

In [None]:
# 샘플로부터 모수(모평균)를 추정하는 가능도를 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 174, scale = 5).prod()

In [None]:
# 샘플로부터 모수(모평균)를 추정하는 가능도를 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5).prod()

In [None]:
# 샘플로부터 모수(모평균)를 추정하는 가능도를 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 176, scale = 5).prod()

### [참고] 다수의 정규분포 확률밀도 곡선 겹쳐서 그리기

In [None]:
# 시각화 관련 모듈을 호출합니다.
from GraphicSetting import *

In [None]:
# (가상의 키 데이터 생성을 위한) 확률변수값을 1차원 배열로 생성합니다.
x = np.arange(start = 130, stop = 221, step = 0.1)

In [None]:
# 확률변수값에 대한 다양한 정규분포 확률밀도(높이)를 생성합니다.
nd1 = stats.norm.pdf(x = x, loc = 175, scale = 15)
nd2 = stats.norm.pdf(x = x, loc = 175, scale = 10)
nd3 = stats.norm.pdf(x = x, loc = 175, scale = 5)

In [None]:
# 정규분포 확률밀도 곡선을 겹쳐서 그립니다.
sns.lineplot(x = x, y = nd1, label = 'STD: 15')
sns.lineplot(x = x, y = nd2, label = 'STD: 10')
sns.lineplot(x = x, y = nd3, label = 'STD: 5')

# 그래프 제목과 x축 눈금명을 추가합니다.
plt.title(label = 'Normal Distribution Curve')
plt.xticks(ticks = np.arange(start = 130, stop = 221, step = 15));

### 정규분포 누적확률

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 5)

In [None]:
# 정규분포 확률밀도 곡선을 겹쳐서 그리고, 빨간색 세로선을 추가합니다.
sns.lineplot(x = x, y = nd1, label = 'STD: 15')
sns.lineplot(x = x, y = nd2, label = 'STD: 10')
sns.lineplot(x = x, y = nd3, label = 'STD: 5')

# 그래프 제목과 x축 눈금명 및 세로선을 추가합니다.
plt.title(label = 'Normal Distribution Curve')
plt.xticks(ticks = np.arange(start = 130, stop = 221, step = 15))
plt.axvline(x = 185, color = 'red');

### 정규분포 확률변수값

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 누적확률이 0.7475인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.7475, loc = 175, scale = 15)

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 누적확률이 0.8413인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.8413, loc = 175, scale = 10)

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 누적확률이 0.9772인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.9772, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 5%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.95, loc = 175, scale = 5)

In [None]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 1%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.99, loc = 175, scale = 5)

### 왜도와 첨도

In [None]:
# 배열을 시리즈로 변환합니다.
heights = pd.Series(data = heights)

In [None]:
# heights의 왜도를 확인합니다.
heights.skew()

In [None]:
# heights의 첨도를 확인합니다.
heights.kurtosis()

### 정규성 검정

In [None]:
# 5천 건 이하인 데이터의 정규성 검정은 사피로-윌크 검정을 실행합니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 가상의 키 데이터를 생성합니다.
np.random.seed(seed = 1234)
heights = stats.norm.rvs(loc = 175, scale = 5, size = 10000)

In [None]:
# 5천 건을 초과하는 데이터로 사피로-윌크 검정을 실행하면 반환되는 유의확률이 
# 정확하지 않다는 경고가 출력됩니다.
stats.shapiro(x = heights)

In [None]:
# 5천 건을 초과하는 데이터의 정규성 검정은 앤더슨-달링 검정으로 대신합니다.
stats.anderson(x = heights)

### 데이터 표준화

In [None]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 15

In [None]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 10

In [None]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
(185 - 175) / 5

In [None]:
# 홍길동의 영어와 수학의 표준화된 점수를 반환합니다.
print('영어 표준화된 점수:', (90 - 75) / 15)
print('수학 표준화된 점수:', (55 - 40) / 10)

### [참고] 이상치 탐지 방법 비교

In [None]:
# 표준화된 데이터의 절대값이 3을 초과하는 인덱스를 locs에 할당합니다.
locs = np.where(np.abs(stats.zscore(a = heights)) > 3)

In [None]:
# 이상치로 판단되는 원소를 출력합니다.
heights[locs]

In [None]:
# 중위수를 저장합니다.
med = np.median(a = heights)

In [None]:
# 중위수 절대편차를 저장합니다.
from statsmodels import robust
mad = robust.mad(a = heights)

In [None]:
# 개별 값에서 중위수를 차감하고 중위수 절대편차로 나눈 값이 3을 초과하는
# 인덱스를 locs에 할당합니다.
locs = np.where(np.abs((heights - med) / mad) > 3)

In [None]:
# 이상치로 판단되는 원소를 출력합니다.
heights[locs]

## End of Document