## 4-1 특수한 이산형 확률분포들

베르누이 분포

In [4]:
# 베르누이 분포
p = 0.3
q = 1-p
E = p
V = p*q

from scipy.stats import bernoulli
E2, V2 = bernoulli.stats(p)
print(E2, V2)

0.3 0.21


이항분포

In [5]:
# 이항분포
from scipy.stats import binom
import numpy as np
import math

fac = math.factorial
def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

# 퇴사 확률 0.1, 근로자 3명 뽑음
n, p = 3, 0.1
E = n*p
V = n*p*(1-p)
print(E,V)

E2 , V2 = binom.stats(n, p)
print(E2, V2)

0.30000000000000004 0.2700000000000001
0.30000000000000004 0.2700000000000001


In [6]:
# 확률질량함수 구하기 : 3명 중에서 1명이 퇴사할 확률은?
X = 1
pmf = combi(n, X)*p**X * (1-p)**(n-X)

print(pmf)
print(binom.pmf(X,n,p))

0.24300000000000005
0.243


In [7]:
# 누적질량함수 : 1명 이하로 떠날 확률
cdf = 0
for i in range(0, X+1):
    cdf += binom.pmf(i,n,p)

print(cdf)
print(binom.cdf(X,n,p))

0.9720000000000001
0.972


In [8]:
# 이항분포의 정규분포 근사
from scipy.stats import norm
x, n, p = 10, 30, 0.5
result_b = binom.pmf(x,n,p)
E = n*p
std = np.sqrt(n*p*(1-p))

zstat1 = (x-0.5-E)/std
zstat2 = (x+0.5-E)/std

result_n = norm.cdf(zstat2) - norm.cdf(zstat1)

print(result_b)
print(result_n)

0.02798160072416065
0.027869264218675572


In [9]:
# 이항분포의 푸아송분포 근사
from scipy.stats import poisson
x, n, p = 10, 100, 0.05

b_result = binom.pmf(x,n,p)
E = n*p
p_result = poisson.pmf(x,E)
print(b_result)
print(p_result)


0.01671588409593141
0.018132788707821854


음이항분포
+ 성공확률이 p인 베르누이 시행을 독립적으로 반복 시행할 때 k번 성공할 때까지의 시행횟수

In [10]:
# 음이항분포
# A가 승리할 확률이 0.3, 5번 경기를 치를 때
from scipy.stats import nbinom

n = 5 # 총 시행 횟수
k = 2 # 총 성공 횟수
p = 0.3 # 성공확률
q = 1-p # 실패확률

x = n - k
E = k*q / p
V = k*q / p**2
pmf = combi(x+k-1, k-1) * p **k * q ** x
E2, V2 = nbinom.stats(k, p)
pkg_pmf, pkg_cdf = nbinom.pmf(x,k,p), nbinom.cdf(x,k,p)
cdf = 0
for i in range(0, x+1):
    cdf += nbinom.pmf(i,k,p)


print(pmf)
print(pkg_pmf)

print(cdf)
print(pkg_cdf)

0.12347999999999996
0.12348
0.47177999999999987
0.47178


기하분포
+ 성공확률이 p인 베르누이 시행을 처음 성공할 때까지의 시행횟수

In [18]:
# 기하분포
# 하나의 주사위를 3번 던질 때 세번째 시행에서 숫자가 처음으로 6이 나올 확률은? pmf
# 주사위 3번 던질 때 6이 나오면 멈춘다고 할 때 멈출 확률? cdf
from scipy.stats import geom
n = 3
p = 1/6
q = 1-p

x = n
E, V = geom.stats(p, moments = 'mv')
pkg_pmf, pkg_cdf = geom.pmf(x, p), geom.cdf(x, p)

print(pkg_pmf)
print(pkg_cdf)

0.11574074074074076
0.4212962962962962


초기하분포
+ 크기 N의 유한모집단 중 크기 n의 확률표본을 뽑는 경우, N개 중 k개는 성공, 나머지 (N-k)개는 실패로 분류하여 비복원 추출할 때 성공 횟수
+ $X$ ~ $HG(N, k, n)$

In [21]:
# 초기화 분포
# 상자 속에 빨간 공이 90개, 파란공이 10개 들어있다.
# 2회 비복원 추출할 때 1개가 파란공일 확률
from scipy.stats import hypergeom

N = 100 # 모집단
k = 10 # 성공요소
n = 2 # 시행횟수
x = 1 # 확인하고자 하는 사건
P = k/N # 모비율

E, V = hypergeom.stats(N, k, n)
print(E, V)

pmf = hypergeom.pmf(x, N, k, n)

# 누적확률잘량함수 : 파란공을 1개 이하로 선택할 확률
cdf = hypergeom.cdf(x, N, k, n)

print(pmf)
print(cdf)

0.2 0.1781818181818182
0.1818181818181818
0.990909090909091


In [22]:
# 초기하 분포의 이항분포 근사
from scipy.stats import norm

result_b = binom.pmf(x, n, P)
result_h = hypergeom.pmf(x, N, k, n)

print(result_b)
print(result_h)

0.18000000000000005
0.1818181818181818


푸아송 분포
+ 단위시간, 단위면적, 단위공간 내에서 발생하는 어떤 사건의 횟수의 확률분포
+ $X$ ~ $P(\lambda)$

In [26]:
# 푸아송 분포
from scipy.stats import poisson

# 주말 저녁 시간 당 평균 6명이 응급실에 올 경우,
# 어떤 주말 저녁 30분 내 4명이 도착할 확률은?

x = 4 # 구간 내 사건 횟수
lam = 3 # 구간 내 평균

E, V = poisson.stats(lam, moments = 'mv')
print(E, V)

pmf = poisson.pmf(x, lam)

# 누적확률질량함수 : 4명 이하로 도착할 확률은?
cdf = poisson.cdf(x, lam)

print(pmf)
print(cdf)

3.0 3.0
0.16803135574154085
0.8152632445237722


In [27]:
# 푸아송 분포의 정규분포 근사
from scipy.stats import norm
import numpy as np

x = 10
lam = 20
E = V = lam
sigma = np.sqrt(V)

zstat1 = (x-0.5-lam)/sigma
zstat2 = (x+0.5-lam)/sigma

n_result = norm.cdf(zstat2) - norm.cdf(zstat1)
p_result = poisson.pmf(x, lam)

print(n_result)
print(p_result)

0.007383492859331415
0.00581630651834512


## 4-2 특수한 연속형 확률분포들

균일분포
+ $X$ ~ $U(a,b)$

In [29]:
# 균일분포
# 버스가 오전 7시부터 15분 간격으로 출발한다.
# 승객이 정류장에 도착하는 시간은 7시에서 7시 30분 사이에 균등분포를 따른다
# 승객이 5분 미만 기다릴 확률은?

a = 0
b = 30

range_ = [(10, 15), (25, 30)] # 구할 범위
p = 1/(b-a)
cdf
for (x1, x2) in range_:
    cdf += (x2-x1) * p

E = (b+a)/2
V = (b-a)**2 / 12

print(E,V)
print(cdf)

15.0 75.0
1.481929911190439


정규분포와 표준정규분포

In [31]:
# 정규분포
# 확률변수 X가 정규분포 N(30, 64) 를 따를 때 26 ~ 46 구간의 확률은?
from scipy.stats import norm
import numpy as np
E = 30
V = 64
S = np.sqrt(64)
x1 = 26
x2 = 46
z1 = (x1-E) / S
z2 = (x2-E) / S

cdf = norm.cdf(z2) - norm.cdf(z1)
print(cdf) 

0.6687123293258339


In [34]:
# 표준정규분포
# 확률번수 X가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?

E = 0
V = 1
S = 1
x1 = -1.96
x2 = 1.96
z1 = (x1-E) / S
z2 = (x2-E) / S

cdf = norm.cdf(z2) - norm.cdf(z1)
print(cdf)

0.950004209703559


지수분포
+ 한 번의 사건이 발생할 때까지 소요되는 시간의 분포
+ $X$ ~ $\epsilon(\lambda)$

In [35]:
# 지수분포
# 자동차들 사이 시간 간격이 평균 3분인 지수확률 분포를 따르는 경우, 
# 연속한 두 대의 차량이 도착하는 시간이 2분 이내일 확률은?
from scipy.stats import expon

lam = 1/3 # lambda : 단위시간 동안 평균적으로 발생한 사건 = 3분동안 1건, 1분동안 1/3건
x = 2 # 사건이 일어날 때까지 걸린 시간

E = 1/lam
V = 1/(lam**2)

# scaledp 1/lam 을 입력해주어야 함
cdf = expon.cdf(x, scale = 1/lam)

print(cdf)

0.486582880967408


감마분포
+ $\alpha$ 번의 사건이 발생할 때까지의 대기시간 분포로 지수분포의 일반화된 상태
+ $X$ ~ $\Gamma(\alpha, \beta)$

In [36]:
# 감마분포
from scipy.stats import gamma
# 낚시를 하는데 어부가 물고리를 30분에 한 마리씩 잡는다.
# 4마리를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이일 확률은?

lam = 2
beta = 1/lam
alpha = 4

E = alpha * alpha
V = alpha * beta **2
range_ = (1,3)

# scale 에 beta 입력
cdf = gamma.cdf(range_[1], alpha, scale = beta) - gamma.cdf(range_[0], alpha, scale = beta)
print(cdf)

0.7059195777218992


In [37]:
# 배송시간이 alpha = 20, lambda = 1.6 인 감마분포를 따를 때
# 20개 철판을 배송할 때 15분 이내로 걸릴 확률은?

lam = 1.6
beta = 1/lam
alpha = 20

E = alpha * alpha
V = alpha * beta **2
range_ = (0, 15)

# scale 에 beta 입력
cdf = gamma.cdf(range_[1], alpha, scale = beta) - gamma.cdf(range_[0], alpha, scale = beta)
print(cdf)

0.8197394858298082


카이제곱 분포
+ 모집단이 정규분포일 때 모분산 추정/검정 시 사용
+ 비모수 검정 중에서 범주형 변수에 대한 적합도, 독립성, 동질성 검정 시 사용

t 분포
+ 모분산을 모르는 상황에서 표본 평균 추정/검정
+ 소표본에서 사용하고 표본이 30을 넘어가면 보통 표본정규분포로 수렴

F분포
+ 두 모집단의 모분산 비의 추정/검정

## 연습문제

1. 어느 사격선수가 과녁의 정중앙을 맞힐 확률이 80%라고 한다. 이 선수가 총 5번 사격을 할 때 평균적으로 몇번 정중앙을 맞히는지 구하시오.

In [43]:
# 이항분포
from scipy.stats import binom
n = 5
p = 0.8

E, V = binom.stats(n, p)
print(E)

4.0


2. 전체 청소년의 40%가 11시 이전에 잠을 잔다고 하면, 임의로 선택한 10명의 청소년 중에 3명이 11시 이전에 잠을 잘 확률을 계산하시오

In [45]:
# 이항분포
from scipy.stats import binom

n = 10
p = 0.4
x = 3

binom.pmf(x,n,p)

0.21499084799999976

3. 어느 아파트 단지에서 밤 11시부터 새벽 2시 사이에 배달되는 음식 배달 건수는 시간 당 평균 5건이다.  
    음식 배달 건수의 분포가 푸아송분포를 따른다면 오늘 새벽 12시와 1시 사이에 배달이 1건만 발생할 확률을 구하라

In [49]:
# 푸아송 분포
from scipy.stats import poisson

lam = 5
x = 1

round(poisson.pmf(x, lam),2)

0.03

4. A 대학교 B전공 시험의 성적 분포는 평균이 65, 표준편차 12인 정규분포를 따른다.  
    최고 점수부터 10% 까지를 A+로 분류한다면, A+ 를 받기 위해 최소 몇점을 받아야 하는가?
    

In [55]:
# 정규분포
from scipy.stats import norm

m = 65
s = 12

z = norm.ppf(0.9) # z값을 구해주는 함수

x = z * s + m
print(x)

80.3786187865352
