## 확률분포의 이해

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

In [2]:
# 통계 관련 라이브러리를 호출합니다.
from scipy import stats
from statsmodels import robust

### 정규분포를 따르는 무작위 값 생성

In [3]:
# 시드를 고정합니다.
np.random.seed(seed = 1234)

In [4]:
# 평균이 175, 표준편차가 5인 정규분포를 따르는 무작위 표본을 생성합니다.
heights = stats.norm.rvs(loc = 175, scale = 5, size = 5000)

In [5]:
# heights(표본)의 평균을 출력합니다.
heights.mean()

175.12138663450918

In [6]:
# heights(표본)의 표준편차를 출력합니다.
heights.std()

4.9588737381446055

### 정규분포 확률밀도

In [7]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 15)

0.02659615202676218

In [8]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 10)

0.03989422804014327

In [9]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 175의 확률밀도(높이)를 반환합니다.
stats.norm.pdf(x = 175, loc = 175, scale = 5)

0.07978845608028654

In [10]:
# 모평균이 175인 정규분포에서 표본이 추출될 확률(가능도 곱)을 계산합니다.
stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5).prod()

0.0004880321188720095

In [11]:
# 모평균이 175인 정규분포에서 표본이 추출될 확률(로그 가능도 합)을 계산합니다.
np.log(stats.norm.pdf(x = [174, 175, 176], loc = 175, scale = 5)).sum()

-7.62512933691632

### 정규분포 누적확률

In [12]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 15)

0.7475074624530771

In [13]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 10)

0.8413447460685429

In [14]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 누적확률을 반환합니다.
stats.norm.cdf(x = 185, loc = 175, scale = 5)

0.9772498680518208

In [15]:
# 두 지점 간 확률을 계산하려면 x 매개변수에 원소가 2개인 리스트를 할당합니다.
cdfs = stats.norm.cdf(x = [165, 185], loc = 175, scale = 5)
cdfs

array([0.02275013, 0.97724987])

In [16]:
# 두 확률변수값 사이의 확률을 계산합니다.
np.diff(a = cdfs)[0]

0.9544997361036416

### 정규분포 확률변수값

In [17]:
# 평균이 175, 표준편차가 15인 정규분포에서 누적확률이 0.7475인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.7475, loc = 175, scale = 15)

184.9996495957946

In [18]:
# 평균이 175, 표준편차가 10인 정규분포에서 누적확률이 0.8413인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.8413, loc = 175, scale = 10)

184.99815093614745

In [19]:
# 평균이 175, 표준편차가 5인 정규분포에서 누적확률이 0.9772인 확률변수값을 반환합니다.
stats.norm.ppf(q = 0.9772, loc = 175, scale = 5)

184.99538607485886

In [20]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 5%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.95, loc = 175, scale = 5)

183.22426813475735

In [21]:
# (재미삼아) 평균이 175, 표준편차가 5인 정규분포에서 상위 1%인 남자의 키를 확인합니다.
stats.norm.ppf(q = 0.99, loc = 175, scale = 5)

186.6317393702042

### 왜도와 첨도

In [22]:
# 왜도로 확률밀도곡선의 중심이 한 쪽으로 치우친 정도를 알 수 있습니다.
stats.skew(a = heights)

-0.03668062034777025

In [23]:
# 첨도로 확률밀도곡선의 봉우리가 뾰족한지 완만한지 여부를 알 수 있습니다.
stats.kurtosis(a = heights)

-0.07067499523641407

### 정규성 검정

In [24]:
# 5천 건 이하인 데이터의 정규성 검정은 사피로-윌크 검정을 실행합니다.
stats.shapiro(x = heights)

ShapiroResult(statistic=0.9995919466018677, pvalue=0.396047443151474)

In [25]:
# 5천 건을 초과하는 가상의 키 데이터를 생성합니다.
np.random.seed(seed = 1234)
heights = stats.norm.rvs(loc = 175, scale = 5, size = 10000)

In [26]:
# shapiro() 함수에 5천 건을 초과하는 데이터를 넣고 실행하면 반환되는 
# 유의확률이 정확하지 않다는 경고를 출력합니다.
stats.shapiro(x = heights)



ShapiroResult(statistic=0.9996193051338196, pvalue=0.04346244037151337)

In [27]:
# 5천 건을 초과하는 데이터의 정규성 검정은 앤더슨-달링 검정을 실행합니다.
# [참고] 유의확률 대신 임계치를 반환합니다.
stats.anderson(x = heights)

AndersonResult(statistic=0.35265258232357155, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]), fit_result=  params: FitParams(loc=175.08063230023598, scale=4.9761483416071846)
 success: True
 message: '`anderson` successfully fit the distribution to the data.')

### 데이터 표준화

In [28]:
# 데이터를 표준화하는 함수를 생성합니다.
def scale(x, loc, scale):
    return (x - loc) / scale

In [29]:
# 평균이 175, 표준편차가 15인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 15)

0.6666666666666666

In [30]:
# 평균이 175, 표준편차가 10인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 10)

1.0

In [31]:
# 평균이 175, 표준편차가 5인 정규분포에서 확률변수값 185의 표준화된 값을 반환합니다.
scale(x = 185, loc = 175, scale = 5)

2.0

### [참고] 이상치 탐지 방법 비교

In [32]:
# 표준화된 데이터의 절대값이 3을 초과하는 인덱스를 locs에 할당합니다.
locs = np.where(np.abs(scale(x = heights, loc = 175, scale = 5)) > 3)

In [33]:
# 평균과 표준편차 기준에서 이상치로 보이는 원소를 출력합니다.
heights[locs]

array([157.1824167 , 190.62817574, 190.54817675, 155.59550794,
       158.61347962, 191.10284213, 158.83247735, 157.82590423,
       159.91806595, 159.24619206, 190.00573485, 158.67898086,
       157.0030016 , 158.68108413, 159.25844267, 191.43893949,
       158.34281695, 155.70665632, 190.18821417, 159.73908333])

In [34]:
# 중위수를 med에 할당합니다.
med = np.median(a = heights)

In [35]:
# 중위수절대편차를 mad에 할당합니다.
mad = robust.mad(a = heights)

In [36]:
# 중위수와 중위수절대편차로 정규화된 값이 3을 초과하는 인덱스를 locs에 할당합니다.
locs = np.where(np.abs((heights - med) / mad) > 3)

In [37]:
# 중위수와 중위수절대편차 기준에서 이상치로 보이는 원소를 출력합니다.
heights[locs]

array([157.1824167 , 190.62817574, 190.54817675, 155.59550794,
       158.61347962, 191.10284213, 160.27713467, 158.83247735,
       160.27904102, 157.82590423, 160.07168122, 159.91806595,
       159.24619206, 190.00573485, 158.67898086, 157.0030016 ,
       160.03098707, 158.68108413, 160.14227944, 159.25844267,
       191.43893949, 158.34281695, 155.70665632, 190.18821417,
       160.2358403 , 159.73908333])

## End of Document