- pmf : probability mass function
    - 특정 실현값이 갖는 확률을 나타낸다.
- cdf : cumulative distribution function
    - 실현값 보다 같거나 작을 누적 확률을 반환한다.
    - p-value를 알고자 할 때 사용한다.
- ppf : percent-point function
    - 누적 확률을 알려주면, 해당 누적 확률을 갖는 실현값을 알려준다.
    - 유의구간에서의 표준점수를 알고자 할 때 사용한다.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.size'] = 12
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['figure.figsize'] = [12, 5]
plt.rcParams['axes.unicode_minus'] = False

In [None]:
#----------------------------------------------------------------------------------------
# [베르누이 분포] 
# 가/부 두 가지 실현값을 갖는 시행에서 맞을 확률이 p일 때의 확률. (그대로 P다.)
# X ~ B(1, p)
#----------------------------------------------------------------------------------------
p = 0.3
q = 1-p
E = p
V = p*q

from scipy.stats import bernoulli

E2, V2 = bernoulli.stats(p)
print('해당 분포의 기대값은 {:.3f}, 분산은 {:.3f}'.format(E2, V2))


해당 분포의 기대값은 0.300, 분산은 0.210


In [15]:
#----------------------------------------------------------------------------------------
# [이항 분포] 
# 확률 p의 베르누이 시행을 n번 반복 시 맞음 회수의 확률 분포
# X ~ B(n, p)
#----------------------------------------------------------------------------------------
from scipy.stats import binom

# 근로자가 내년에 회사를 떠날 확률이 0.1일 때, 근로자 3명을 무작위로 뽑았다면 이 중 몇명이 떠나겠는가?
n = 3
p = 0.1
E2, V2 = binom.stats(n, p)
print('해당 분포의 기대값은 {:.3f}, 분산은 {:.3f}'.format(E2, V2))

# 1명이 금년에 회사를 떠날 확률은? (실현값이 1일 때의 확률)
x = 1
print('해당 분포에서 결과가 %d일 확률은 pmf(%.2f)' %(x, binom.pmf(x, n, p)))

# 1명 이하로 떠날 확률은? (실현값이 1보다 작은 구간의 누적 확률)
print('해당 분포에서 결과가 %d보다 작은 경우의 누적 확률은 cdf(%.3f)' %(x, binom.cdf(x, n, p)))

해당 분포의 기대값은 0.300, 분산은 0.270
해당 분포에서 결과가 1일 확률은 pmf(0.24)
해당 분포에서 결과가 1보다 작은 경우의 누적 확률은 cdf(0.972)


In [None]:
#----------------------------------------------------------------------------------------
# [음이항 분포] 
# 확률 p의 베르누이 시행을 반복 시 k번 맞음 까지의 "틀림 회수"의 분포
# X ~ NB(n, p)
#----------------------------------------------------------------------------------------
from scipy.stats import nbinom

# A가 승리할 확률이 0.3일 때, 5번 경기를 치르는 2번 이길 확률
p = 0.3
x = 5
k = 2

# 5번째 경기에서 2번째로 이길 확률은?
print('해당 분포에서 %d번째 경기에서 %d번째로 승리, 즉 %d회 패배할 확률은 pmf(%.3f)' %(x, k, x-k, nbinom.pmf(x-k, k, p)))

# 5번째 경기에서 2번 이하로 이길 확률은?
print('해당 분포에서 %d번째 경기에서 %d이하로 승리, 즉 패배 횟수가 %d보다 많을 확률은 cdf(%.3f)' %(x, k, x-k, nbinom.cdf(x-k, k, p)))

해당 분포에서 5번째 경기에서 2번째로 승리, 즉 3회 패배할 확률은 pmf(0.123)
해당 분포에서 5번째 경기에서 2이하로 승리, 즉 패배 횟수가 3보다 많을 확률은 cdf(0.472)


In [None]:
#----------------------------------------------------------------------------------------
# [기하 분포] 
# 확률 p의 베르누이 시행을 반복 시 첫 맞음 때 까지의 "시행 회수"의 확률 분포
# X ~ G(p)
#----------------------------------------------------------------------------------------
from scipy.stats import geom

# 하나의 주사위를 3번 던졌을 때, 6이 나올 확률
p = 1/6
x = 3
print('해당 분포에서 %d회 시행 시 처음 성공할 확률은 pmf(%.3f)' %(x, geom.pmf(3, p)))

# 하나의 주사위를 3회 이하 시도 시 6이 나올 확률
print('해당 분포에서 %d회 시도 이내에 성공할 확률은 cdf(%.3f)' %(x, geom.cdf(3, p)))


해당 분포에서 3회 시행 시 처음 성공할 확률은 pmf(0.116)
해당 분포에서 3회 시도 이내에 성공할 확률은 cdf(0.421)


In [31]:
#----------------------------------------------------------------------------------------
# [초기하 분포] 
# N개의 모집단에서 k개가 맞고 나머지는 아닐 때, n개 비복원 표본추출 시 맞음 회수의 확률 분포
# X ~ HG(N, k, n)
#----------------------------------------------------------------------------------------
from scipy.stats import hypergeom

# 상자속 빨간공 90개 / 파란공 10개. 2개 비복원 추출 시 1개가 파란공일 확률?
N=100
k=10
n=2
x=1

E2, V2 = hypergeom.stats(N, k, n)
print('해당 분포에서 %d개를 꺼냈을 때 %d가 맞을 확률은 pmf(%.3f)' %(n, x, hypergeom.pmf(x, N, k, n)))

# 해당 분포에서 1개 이하로 선택할 확률은?
print('해당 분포에서 %d개 꺼냈을 때 %d개 이하로 맞음일 누적 확률은 cdf(%.3f)' %(n, x, hypergeom.cdf(x, N, k, n)))

해당 분포에서 2개를 꺼냈을 때 1가 맞을 확률은 pmf(0.182)
해당 분포에서 2개 꺼냈을 때 1개 이하로 맞음일 누적 확률은 cdf(0.991)


In [36]:
#----------------------------------------------------------------------------------------
# [포아송 분포] 
# 단위 시간/면적 내 평균 사건 발생회수가 lambda일 때, 사건 발생 회수의 확률 분포
# X ~ poisson(lambda)
#----------------------------------------------------------------------------------------
from scipy.stats import poisson

# 저녁 1시간 당 평균 6명 응급실. 어떤 저녁 30분 내 4명이 도착할 확률은?
lam = 3  # 구간을 30분 단위로 통일한다.
x = 4

E2, V2 = poisson.stats(lam, moments='mv')
print('해당 분포에서 단위 시간 당 %d회 사건이 발생할 확률은 pmf(%.3f)' %(x, poisson.pmf(x, lam)))
print('해당 분포에서 %d건 이하로 사건이 발생할 확률은 cdf(%.3f)' %(x, poisson.cdf(x, lam)))

해당 분포에서 단위 시간 당 4회 사건이 발생할 확률은 pmf(0.168)
해당 분포에서 4건 이하로 사건이 발생할 확률은 cdf(0.815)


In [46]:
#----------------------------------------------------------------------------------------
# [정규분포] 
# 평균 mu가 중심을, 분산 sigsqr 퍼짐을 결정하는 정규분포
# X ~ N(mu, sigsqr)
# [표준정규분포] 
# X ~ N(0, 1)
#----------------------------------------------------------------------------------------
from scipy.stats import norm

# 확률변수 X가 정규분포 N(30, 64)를 따를 때 26~46 구간의 확률은?
mu = 30
sigsqr = 64
x1 = 26
x2 = 46
x1_std = (x1-mu)/np.sqrt(sigsqr)
x2_std = (x2-mu)/np.sqrt(sigsqr)
print(norm.cdf(x2_std) - norm.cdf(x1_std))

# 확률변수 X가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?
print( 1 - norm.cdf(-1.96) - (1 - norm.cdf(1.96)) )



0.6687123293258339
0.950004209703559


In [1]:
#----------------------------------------------------------------------------------------
# [지수분포] 
# 단위 시간/면적 당 사건의 평균 발생회수가 lambda일 때, 한 번의 사건이 발생할 때 까지 소요된 시간의 분포
# X ~ e(lambda)
#----------------------------------------------------------------------------------------
from scipy.stats import expon

#자동차들 사이 시간 간격이 평균 3분의 지수확률 분포를 따를 때, 연속한 차량 2대의 도착 시간 차가 2분 이내일 가능성
# 사건의 평균 발생 회수는 분 당 1/3
lam = 1/3
# 지수분포를 통해 보고자 하는 시간은 2분 
x = 2
expon.cdf(x, scale = 1/lam) 

#역수를 취하는 것의 의미는 단위를 맞춰주기 위함이다.
#x는 사건이 발생하기 까지의 시간이고 lam은 단위 시간 당 사건의 발생 회수이다. lam에 역수를 취하면 사건 발생까지의 평균 소요시간이 된다.
#따라서 expon.cdf의 전달인자는 (사건발생에 소요된 시간, 사건 발생의 평균 소요시간)
#지수분포는 시간에 따른 확률의 분포인 만큼 시간으로 단위를 통일한다.

np.float64(0.486582880967408)

In [13]:
#----------------------------------------------------------------------------------------
# [감마분포] 
# 단위 시간/면적 당 사건의 평균 발생회수가 lambda일 때, alpha 번의 사건이 발생할 때 까지 소요된 시간의 분포
# X ~ T(alpha, 1/lambda)
# 따라서 alpha가 1이면 지수분포가 된다.
#----------------------------------------------------------------------------------------
from scipy.stats import gamma

# 물고기를 30분에 1마리.4마리의 물고기를 잡기 까지 걸린 시간이 1~3시간 사이로 소요될 확률은? (단위를 시간으로 통일)
lam = 2
alpha = 4
x1 = 1
x2 = 3
print( gamma.cdf(x2, alpha, scale=1/lam) - gamma.cdf(x1, alpha, scale=1/lam) )

# 배송 시간이 alpha=20, lambda=1.6인 gamma 분포를 따를 때, 20개의 철판을 배송할 때 걸리는 시간이 15분 이내일 가능성은?
lam = 1.6
alpha = 20
x1 = 0
x2 = 15
print( gamma.cdf(x2, alpha, scale=1/lam) - gamma.cdf(x1, alpha, scale=1/lam) )


0.7059195777218992
0.819739485829808


In [16]:
#----------------------------------------------------------------------------------------
# [연습문제 1]
# 과녁 정중앙 확률 80%. 5번 사격 시 평균적으로 몇번 정중앙 맞힐까?
#----------------------------------------------------------------------------------------
# 이 문제는 이항분포로 해결한다.
from scipy.stats import binom

# 이항분포는, 확률 p의 베르누이 시행을 n번 시행 시 성공회수의 확률 분포다.
p = 0.8
n = 5
E2, V2 = binom.stats(n, p)
print(E2, V2)

4.0 0.7999999999999994


In [19]:
#----------------------------------------------------------------------------------------
# [연습문제 2]
# 전체 40%가 11시 이전에 잔다. 10명 중 3명이 11시 이전에 잠을 잘 확률?
#----------------------------------------------------------------------------------------
# 이 문제는 이항분포로 해결한다.
from scipy.stats import binom

# 이항분포는 확률 p의 베르누이 시행을 n번 반복 시 성공회수의 확률분포다.
p = 0.4
n = 10
x = 3
print( binom.pmf(x, n, p) )

0.21499084799999987


In [None]:
#----------------------------------------------------------------------------------------
# [연습문제 3]
# 11시~02시 배달 건수가 시간 당 5건. 배달건수가 포아송 분포를 따를 때, 12시~01시 사이 배달이 1건만 발생할 확률
#----------------------------------------------------------------------------------------
# 이 문제는 포아송분포로 해결한다.
from scipy.stats import poisson

# 포아송분포는, 단위 시간/면적 당 평균 발생회수가 lam일 때, 발생회수의 확률분포이다.
# 여기서 단위 시간을 2시간으로 잡는다.
lam = 5
x = 1

print ( poisson.pmf(x, lam))


0.03368973499542734


In [25]:
#----------------------------------------------------------------------------------------
# [연습문제 4]
# 평균 65, 표준편차 12인 정규분포. 최상위 10%를 A+로 분류할 때, A+받기 위한 최소 점수는?
#----------------------------------------------------------------------------------------
# 이 문제는 정규분포로 해결한다.
from scipy.stats import norm

mu = 65
std = 12
print( norm.ppf(0.9, mu, std) )

80.3786187865352
