# **핵심만 요약한 통계와 머신러닝 파이썬 코드북 개정1판**
- ⓒ2023 AlgoBoni all rights reserved.
- 본 컨텐츠의 저작권은 알고보니에 있습니다. 저작권법에 의해 보호를 받는 저작물이므로 무단 전재와 무단 복제를 금합니다.
- 본 컨텐츠의 종이책은 [교보문고](https://product.kyobobook.co.kr/detail/S000209591909), [예스24](https://www.yes24.com/Product/Goods/122661688), [알라딘](https://www.aladin.co.kr/shop/wproduct.aspx?ISBN=K262935029&start=pnaver_02)에서 구매할 수 있습니다. 종이책에서는 아래 개념 및 코드에 대한 설명과 연습문제를 제공합니다.

# 4. 확률분포

## 4-1. 특수한 이산형 확률분포들

### - 베르누이 분포

In [443]:
# 베르누이 분포
p = 0.3 #성공할 확률
q = 1-p #실패할 확률
E = p #기댓값
V = p*q #분산
print('[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}'.format(E, V))
from scipy.stats import bernoulli
E2, V2 = bernoulli.stats(p)
print('[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}'.format(E2, V2))

[수기] 해당 분포의 기댓값은 0.300, 분산은 0.210
[라이브러리] 해당 분포의 기댓값은 0.300, 분산은 0.210


### - 이항분포

In [None]:
# 이항분포
from scipy.stats import binom
import numpy as np
from numpy import math
fac = math.factorial
def combi(a, b): #combination 함수 정의
    result = fac(a)/fac(b)/fac(a-b)
    return result

# 근로자가 내년에 회사를 떠날 확률이 0.1이라고 추정한 경우, 
# 근로자 3명을 무작위로 뽑은 상황
n = 3 #근로자 샘플 개수
p = 0.1 #떠날 확률

# 근로자가 떠날 확률에 대해 기댓값과 분산 계산하기
E = n*p
V = n*p*(1-p)
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
E2, V2 = binom.stats(n, p)
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2))

[수기] 해당 분포의 기대값은 0.300, 분산은 0.270
[라이브러리] 해당 분포의 기대값은 0.300, 분산은 0.270


In [None]:
# 확률질량함수 계산하기: 1명이 금년에 회사를 떠날 확률은?
x = 1 #떠날 샘플 개수 **확률변수 X
pmf = combi(n, x) * p**x * (1-p)**(n-x)
print("[수기] 해당 분포의 확률질량함수(pmf): %.3f" %(pmf))
print("[라이브러리] 해당 분포의 확률질량함수(pmf): ", binom.pmf(x, n, p))

[수기] 해당 분포의 확률질량함수(pmf): 0.243
[라이브러리] 해당 분포의 확률질량함수(pmf):  0.243


In [None]:
# 누적확률질량함수 계산하기: 1명 이하로 떠날 확률은?
cdf = 0
for i in range(0,x+1): # 확률변수의 확률값들을 합함 # 0명 떠날 확률 + 1명 떠날 확률
    cdf += binom.pmf(i, n, p)
print("[수기] 해당 분포의 누적확률질량함수(cdf): ", cdf)
print("[라이브러리] 해당 분포의 누적확률질량함수(cdf): ", binom.cdf(x, n, p))

[수기] 해당 분포의 누적확률질량함수(cdf):  0.972
[라이브러리] 해당 분포의 누적확률질량함수(cdf):  0.972


In [None]:
# 이항분포의 정규분포 근사
from scipy.stats import norm
x, n, p = 10, 30, 0.5
b_result = binom.pmf(x, n, p)
E = n*p
sigma = np.sqrt(E*(1-p))
zstat1 = (x-0.5-E)/sigma #이항분포의 x에서 -0.5
zstat2 = (x+0.5-E)/sigma #이항분포의 x에서 +0.5
n_result = norm.cdf(zstat2) - norm.cdf(zstat1)

print("이항분포로 계산하면 {:.3f} 정규분포로 근사계산하면 {:.3f}".format(b_result, n_result)) # 결과값이 근사한 것을 볼 수 있다.

이항분포로 계산하면 0.028 정규분포로 근사계산하면 0.028


In [None]:
# 이항분포의 포아송분포 근사
from scipy.stats import poisson
x, n, p = 10, 100, 0.05
b_result = binom.pmf(x, n, p)
E = n*p
p_result = poisson.pmf(x, E)
print("이항분포로 계산하면 {:.3f} 포아송분포로 근사계산하면 {:.3f}".format(b_result, p_result)) # 결과값이 근사한 것을 볼 수 있다.

이항분포로 계산하면 0.017 포아송분포로 근사계산하면 0.018


### - 음이항분포

In [None]:
# 음 이항분포
# A가 승리할 확률이 0.3일 때, 5번 경기를 치르는 상황
from scipy.stats import nbinom
from numpy import math
fac = math.factorial
def combi(a, b):
    result = fac(a)/fac(b)/fac(a-b)
    return result

n = 5 # 총 시행횟수
k = 2 # 총 성공횟수
p = 0.3 # 성공확률
q = 1-p # 실패확률
case = 2
if case ==1: # 확률변수 X가 k번 성공할 때까지의 시행횟수 x인 경우
    x = n # **확률변수
    E = k / p
    V = k*q / p**2
    pmf = combi(x-1, k-1) * p**k * q**(x-k)
    E2, V2 = np.nan, np.nan ## 라이브러리 지원 안 함
    pkg_pmf, pkg_cdf = np.nan, np.nan ## 라이브러리 지원 안 함
    cdf = 0
    for i in range(k, x+1): # 확률변수의 확률값들을 합함
        cdf += combi(i-1, k-1) * p**k * q**(i-k)
        
elif case ==2: # 확률변수 X가 k번 성공할 때까지의 실패횟수 x인 경우
    x = n - k # **확률변수
    E = k*q / p
    V = k*q / p**2
    pmf = combi(x+k-1, k-1) * p**k * q**(x)
    E2, V2 = nbinom.stats(k, p)
    pkg_pmf, pkg_cdf = nbinom.pmf(x, k, p), nbinom.cdf(x, k, p)
    cdf = 0
    for i in range(0, x+1): # 확률변수의 확률값들을 합함
        cdf += nbinom.pmf(i, k, p)

# 기댓값과 분산 계산하기
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
print("[수기] 확률질량함수(pmf): ", pmf)
print("[라이브러리] 확률질량함수(pmf): ", pkg_pmf, '\n')

# 누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?
print("[수기] 누적확률질량함수(cdf): ", cdf)
print("[라이브러리] 누적확률질량함수(cdf): ", pkg_cdf)

[수기] 해당 분포의 기대값은 4.667, 분산은 15.556
[라이브러리] 해당 분포의 기대값은 4.667, 분산은 15.556 

[수기] 확률질량함수(pmf):  0.12347999999999996
[라이브러리] 확률질량함수(pmf):  0.12348000000000002 

[수기] 누적확률질량함수(cdf):  0.4717799999999999
[라이브러리] 누적확률질량함수(cdf):  0.4717799999999999


### - 기하분포

In [None]:
# 기하분포
# 하나의 주사위를 세번 던질 때 세번째 시행에서 앞면 숫자가 6이 나올 확률은?
from scipy.stats import geom
n = 3 # 총 시행횟수
p = 1/6 # 성공확률
q = 1-p # 실패확률

case = 1
if case ==1: # 확률변수 X가 처음으로 성공할 때까지의 시행횟수 x인 경우
    x = n # **확률변수
    E = 1 / p
    V = q / p**2
    pmf = q**(x-1) * p
    E2, V2 = geom.stats(p, moments = 'mv') # mean, variance
    pkg_pmf, pkg_cdf = geom.pmf(x, p), geom.cdf(x, p)
    cdf = 0
    for i in range(1, x+1): # 확률변수의 확률값들을 합함
        cdf += q**(i-1) * p
        
elif case ==2: # 확률변수 X가 처음으로 성공할 때까지의 실패횟수 x인 경우
    x = n - 1 # **확률변수
    E = q / p
    V = q / p**2
    pmf = q**x * p
    E2, V2 = np.nan, np.nan ## 라이브러리 지원 안 함
    pkg_pmf, pkg_cdf = np.nan, np.nan ## 라이브러리 지원 안 함
    cdf = 0
    for i in range(0, x+1): # 확률변수의 확률값들을 합함
        cdf += q**i * p

# 기댓값과 분산 계산하기
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
print("[수기] 확률질량함수(pmf): ", pmf)
print("[라이브러리] 확률질량함수(pmf): ", pkg_pmf, '\n')

# 누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?
print("[수기] 누적확률질량함수(cdf): ", cdf)
print("[라이브러리] 누적확률질량함수(cdf): ", pkg_cdf)

[수기] 해당 분포의 기대값은 6.000, 분산은 30.000
[라이브러리] 해당 분포의 기대값은 6.000, 분산은 30.000 

[수기] 확률질량함수(pmf):  0.11574074074074076
[라이브러리] 확률질량함수(pmf):  0.11574074074074076 

[수기] 누적확률질량함수(cdf):  0.42129629629629634
[라이브러리] 누적확률질량함수(cdf):  0.4212962962962963


### - 초기하분포

In [None]:
# 초기하 분포
from scipy.stats import hypergeom
from numpy import math
fac = math.factorial
def combi(a, b): #combination 함수 정의
    result = fac(a)/fac(b)/fac(a-b)
    return result

#상자 속에 빨간 공이 90개 파란 공이 10개 들어 있다. 임의로 1개씩 두 번 꺼내고 다시 넣지 않을 때 1개가 파란 공이 될 확률은?
N = 100 #모집단 수 (총 공 개수)
k = 10 #성공요소 수 (총 파란공 개수)
n = 2 #시행횟수 (공 선택 횟수)
x = 1 #확인하고자 하는 사건 (1개 파란공) **확률변수
P = k/N #모비율

# 기댓값과 분산 계산하기
E = n*P
V = n*P*(1-P)*((N-n)/(N-1))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
E2, V2 = hypergeom.stats(N, k, n)
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
pmf = combi(k,x)*combi(N-k, n-x)/combi(N, n)
print("[수기] 해당 분포의 확률질량함수(pmf): %.3f" %(pmf))
print("[라이브러리] 해당 분포의 확률질량함수(pmf): %.3f" %(hypergeom.pmf(x, N, k, n)), '\n')

# 누적확률질량함수 계산하기: 파란공을 1개 이하로 선택할 확률은?
cdf = 0
for i in range(0,x+1): # 확률변수의 확률값들을 합함
    cdf += hypergeom.pmf(i, N, k, n)
print("[수기] 해당 분포의 누적확률질량함수(cdf): %.3f" %cdf)
print("[라이브러리] 해당 분포의 누적확률질량함수(cdf): %.3f" %(hypergeom.cdf(x, N, k, n)))

[수기] 해당 분포의 기대값은 0.200, 분산은 0.178
[라이브러리] 해당 분포의 기대값은 0.200, 분산은 0.178 

[수기] 해당 분포의 확률질량함수(pmf): 0.182
[라이브러리] 해당 분포의 확률질량함수(pmf): 0.182 

[수기] 해당 분포의 누적확률질량함수(cdf): 0.991
[라이브러리] 해당 분포의 누적확률질량함수(cdf): 0.991


In [None]:
# 초기하 분포의 이항분포 근사
from scipy.stats import norm

b_result = binom.pmf(x, n, k/N)
h_result = hypergeom.pmf(x, N, k, n)
print("초기하분포로 계산하면 {:.3f} 이항분포로 근사계산하면 {:.3f}".format(h_result,b_result)) 
# 결과값이 근사한 것을 볼 수 있다.

초기하분포로 계산하면 0.182 이항분포로 근사계산하면 0.180


### - 포아송분포

In [None]:
# 포아송 분포
from scipy.stats import poisson

#주말 저녁 시간 당 평균 6명이 응급실 올 경우, 어떤 주말 저녁 30분 내 4명이 도착할 확률은?
x = 4 #구간 내 사건 횟수 **확률변수
lam = 3 #구간 내 평균 (=lambda)

# 기댓값과 분산 계산하기
E = lam
V = lam
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))
E2, V2 = poisson.stats(lam, moments='mv')
print("[라이브러리] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E2, V2), '\n')

# 확률질량함수 계산하기
pmf = lam**x * np.exp(-lam)/np.math.factorial(x)
print("[수기] 해당 분포의 확률질량함수(pmf): %.3f" %(pmf))
print("[라이브러리] 해당 분포의 확률질량함수(pmf): %.3f" %(poisson.pmf(x, lam)), '\n')

# 누적확률질량함수 계산하기: 4명 이하로 도착할 확률은?
cdf = 0
for i in range(0,x+1): # 확률변수의 확률값들을 합함
    cdf += poisson.pmf(i, lam)
print("[수기] 해당 분포의 누적확률질량함수(cdf): %.3f" %cdf)
print("[라이브러리] 해당 분포의 누적확률질량함수(cdf): %.3f" %(poisson.cdf(x, lam)))

[수기] 해당 분포의 기대값은 3.000, 분산은 3.000
[라이브러리] 해당 분포의 기대값은 3.000, 분산은 3.000 

[수기] 해당 분포의 확률질량함수(pmf): 0.168
[라이브러리] 해당 분포의 확률질량함수(pmf): 0.168 

[수기] 해당 분포의 누적확률질량함수(cdf): 0.815
[라이브러리] 해당 분포의 누적확률질량함수(cdf): 0.815


In [None]:
# 포아송 분포의 정규분포 근사
from scipy.stats import norm
import numpy as np
x = 10
lam = 20
E = V = lam
sigma = np.sqrt(V) #포아송 분포의 표준편차
zstat1 = (x-0.5-lam)/sigma #포아송분포의 x에서 -0.5
zstat2 = (x+0.5-lam)/sigma #포아송분포의 x에서 +0.5
n_result = norm.cdf(zstat2) - norm.cdf(zstat1)
p_result = poisson.pmf(x, lam)

print("포아송 분포로 계산하면 {:.3f} 정규분포로 계산하면 {:.3f}".format(p_result, n_result)) # 결과값이 근사한 것을 볼 수 있다.

포아송 분포로 계산하면 0.006 정규분포로 계산하면 0.007


## 4-2. 특수한 연속형 확률분포들

### - 균일 분포

In [None]:
# 균일 분포
# 확률변수 X가 (5, 15)에서 균일분포를 따를 때 12와 15 사이의 확률은?
a = 5 #확률변수의 범위
b = 15 #확률변수의 범위
range_ = [(12, 15)]
p = 1/(b-a) #확률밀도함수
cdf = 0
for (x1, x2) in range_:
    cdf += (x2-x1) * p #누적분포함수
E = (b+a)/2
V = (b-a)**2 / 12
print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.300
[수기] 해당 분포의 기대값은 10.000, 분산은 8.333


In [None]:
# 버스가 오전 7시부터 15분 간격으로 정류장을 출발한다. 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이에 균등분포를 따른다고 할 때 이 승객이 버스를 5분 미만 기다릴 확률은?
a = 0 #확률변수의 범위
b = 30 #확률변수의 범위

# 승객이 버스를 5분 미만으로 기다릴 구간: 7시 10분~7시 15분, 7시 25분~ 7시30분
range_ = [(10, 15), (25, 30)] #구할 범위
p = 1/(b-a) #확률밀도함수
cdf = 0
for (x1, x2) in range_:
    cdf += (x2-x1) * p #누적분포함수

E = (b+a)/2
V = (b-a)**2 / 12

print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.333
[수기] 해당 분포의 기대값은 15.000, 분산은 75.000


### - 정규분포와 표준정규분포

In [None]:
# 정규분포
# 확률변수 X가 정규분포 N(30, 64)를 따를 때 26 ~ 46 구간의 확률은?
from scipy.stats import norm #표준정규분포
import numpy as np
E = 30 # 평균
V = 64
S = np.sqrt(V) # 표준편차
x1 = 26
x2 = 46
zstat1 = (x1-E)/S #표준화
zstat2 = (x2-E)/S #표준화
cdf = norm.cdf(zstat2) - norm.cdf(zstat1)
print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.669
[수기] 해당 분포의 기대값은 30.000, 분산은 64.000


In [None]:
# 표준정규분포
# 확률변수 X가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?
E = 0 # 평균
V = 1
S = np.sqrt(V) # 표준편차
zstat1 = -1.96
zstat2 = 1.96
cdf = norm.cdf(zstat2) - norm.cdf(zstat1)
print("[수기] 범위 내 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 범위 내 누적확률은 0.950
[수기] 해당 분포의 기대값은 0.000, 분산은 1.000


### - 지수분포

In [None]:
# 지수분포
from scipy.stats import expon

# 자동차들 사이 시간 간격이 평균 3분인 지수확률 분포를 따르는 경우, 연속한 두대의 차량이 도착하는 시간이 2분 이내일 확률은?
lam = 1/3 # lambda: 단위시간 동안 평균적으로 발생한 사건 = 3분동안 1건, 1분동안 1/3건
x = 2 # 사건이 일어날 때까지 걸린 시간

E = 1/lam
V = 1/(lam**2)
# scale에 1/lam을 입력해주어야 함
cdf = expon.cdf(x, scale = 1/lam) 

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.487
[수기] 해당 분포의 기대값은 3.000, 분산은 9.000


### - 감마분포

In [445]:
# 감마분포
from scipy.stats import gamma
# 낚시를 하는데 어부가 물고기를 30분에 한 마리씩 잡는다. 어부가 4마리의 물고기를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이로 소요될 확률은?
lam = 2 # lambda: 30분에 한마리 = 1시간에 두마리 잡음
beta = 1/lam
alpha = 4 # 4마리의 물고기
E = alpha * beta
V = alpha * beta**2
range_ = (1, 3) #1시간~3시간

# scale에 beta를 입력해주어야 함
cdf = gamma.cdf(range_[1], alpha, scale=beta) - gamma.cdf(range_[0], alpha, scale=beta)

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.706
[수기] 해당 분포의 기댓값은 2.000, 분산은 1.000


In [None]:
# 배송 시간이 alpha = 20, lambda = 1.6인 감마분포를 따를 때,
# 20개 철판을 배송할 때 걸리는 시간이 15분 이내일 확률은?
lam = 1.6 # lambda
beta = 1/lam
alpha = 20 
E = alpha * beta
V = alpha * beta**2
range_ = (0, 15)

# scale에 beta를 입력해주어야 함
cdf = gamma.cdf(range_[1], alpha, scale=beta) - gamma.cdf(range_[0], alpha, scale=beta)

print("[수기] 누적확률은 {:.3f}".format(cdf))
print("[수기] 해당 분포의 기댓값은 {:.3f}, 분산은 {:.3f}".format(E, V))

[수기] 누적확률은 0.820
[수기] 해당 분포의 기대값은 12.500, 분산은 7.812


# 연습문제

### - 1번 문제 풀이

In [82]:
p = 0.8
q = 1-p
n = 5

from scipy.stats import binom
E, V = binom.stats(n, p)
print("[라이브러리 계산] {:.2f}".format(E))

a = n*p
print("[수기 계산] {:.2f}".format(a))

# 이항분포 X ~ B(n, p), E(X)=np, V(X)=npq 에서 기댓값을 구하는 문제이다. 정답은 4

[라이브러리 계산] 4.00
[수기 계산] 4.00


### - 2번 문제 풀이

In [87]:
p = 0.4
q = 1-p
n = 10
x = 3

from scipy.stats import binom
print("[라이브러리 계산] {:.4f}".format(binom.pmf(x, n, p)))

from numpy import math
fac = math.factorial
def combi(a, b): #aCb
    return fac(a)/fac(b)/fac(a-b)
print("[수기 계산] {:.4f}".format(combi(n, x) * p**(x) * (1-p)**(n-x)))

# 이항분포의 특정 확률변수 x에 대한 확률질량함수를 구하는 문제이다. 정답은 21.5%

[라이브러리 계산] 0.2150
[수기 계산] 0.2150


### - 3번 문제 풀이

In [89]:
lam = 5
x = 1
import numpy as np
pmf = lam**x * np.exp(-lam)/np.math.factorial(x)
print("{:.4f}".format(pmf))

from scipy.stats import poisson
print("{:.4f}".format(poisson.pmf(x, lam)))
# 포아송 분포의 특정 확률변수 x에 대한 확률질량함수를 구하는 문제이다. 정답은 3.37%

0.0337
0.0337


### - 4번 문제 풀이

In [108]:
mu = 65
sigma = 12

from scipy.stats import norm
z = norm.ppf(1-0.1)
x = z * sigma + mu
round(x, 2)
# 정규분포 X ~ N(mu, sigma^2)를 표준정규분포 Z ~ N(0, 1)로 표준화하여 x를 구하는 문제이다. 표준화 공식은 z = (x - mu) / sigma이다. 정답: 81점

80.38