In [1]:
# 파일 합치기 위한 별도 파일

# 기하 분포 

(1) 확률변수 X = 시행횟수
- $f(x) = p(1-p)^{x-1}, x=1,2,3,...$
- $E(X) = 1/p$
- $Var(X) = (1-p)/p^2$
  
(2) 확률변수 X = 실패횟수
- $f(x) = p(1-p)^x, x=0,1,2,...$
- $E(X) = (1-P)/p$
- $Var(X) = (1-p)/p^2$

In [4]:
# 기하 분포
# 하나의 주사위를 세번 던질 때 세번째 시행에서 앞면 숫자가 6이 나올 확률은?
from scipy.stats import geom
n = 3 # 총 시행횟수
p = 1/6 #성공확률
q = 1-p # 실패확률

case = 1
if case ==1 : # 확률변수 x가 처음으로 성공할 때까지의 시행횟수 x인 경우
    x = n # **확률변수
    E = 1/p
    V = q/p**2
    pmf = p*q**(x-1)
    E2 ,V2 = geom.stats(p, moments = 'mv') # mean, variance
    pkg_pmf, pkg_cdf = geom.pmf(x,p), geom.cdf(x,p) 
    cdf = 0
    for i in range(1,x+1): # 확률변수의 확류값들의 합
        cdf += q**(i-1) * p

elif case ==2: # 확률변수 X가 처음으로 성공할 때까지의 실패횟수 x인 경우
    x = n-1 # **확률변수
    E = q/p
    V = q/p**2
    pmf = p* q**x
    E2, V2 = np.nan, np.nan # 라이브러리 지원 안함
    pkg_pmf, pkf_cdf = np.nan, np.nan
    cdf = 0 
    for i in range(0,x+1):
        cdf += q**i *p

# 기대값과 분산 계산하기 
print(f"해당 분포의 기대값은 {E}, 분산은 {V}")
print(f"라이브러리 - 해당 분포의 기대값은 {E2}, 분산은 {V2} \n")

# 확률질량함수 계산하기
print(f"확률질량함수(pmf): {pmf}")
print(f"라이브러리 - 확률질량함수(pmf) : {pkg_pmf}\n")

# 누적확률질량함수 계산하기
print(f"누적확률질량함수(cdf) : {cdf}")
print(f"라이브러리 - 누적확률질량함수(cdf): {pkg_cdf}\n")
    
    

해당 분포의 기대값은 6.0, 분산은 30.000000000000004
라이브러리 - 해당 분포의 기대값은 6.0, 분산은 30.000000000000007 

확률질량함수(pmf): 0.11574074074074076
라이브러리 - 확률질량함수(pmf) : 0.11574074074074076

누적확률질량함수(cdf) : 0.42129629629629634
라이브러리 - 누적확률질량함수(cdf): 0.4212962962962963



# 초기하분포

초기하분포
- $f(x) = \frac{{}_{k}C_{x}\; {}_{(N-k)}C_{(n-x)}}{{}_{N}C_{n}}, x=0,1,...,n$
- $E(X) = nk/N$
- $Var(X) = \frac{nk}{N}\frac{(N-k)}{N}\frac{N-n}{N-1}$


In [25]:
# 초기하 분포
from scipy.stats import hypergeom 
import math

# 상자 속에 빨간 공이 90개 파란 공이 10개 들어 있다. 임의로 1개씩 두 번 꺼내고 다시 넣지 않을 때 1개가 파란공이 될 확률은?
N = 100 # 모집단 수(총 공 개수)
k = 10  # 성공요소 수 (총 파란공 개수)
n = 2   # 시행횟수 (공 선택 횟수)
x = 1  # 확인하고자 하는 사건 (1개 파란공) ** 확률변수
P = k/N # 모비율

# 기대값과 분산 계산하기
E = n*P
V = n*P*((N-k)/N)*((N-n)/(N-1))
print(f"해당 분포의 기대값은 {E}, 분산은 {V}")
E2 ,V2 = hypergeom.stats(N,k,n)
print(f"라이브러리 - 해당 분포의 기대값은 {E2}, 분산은 {V2}\n")

# 확률질량함수 
pmf = math.comb(k,x) * math.comb(N-k,n-x)/math.comb(N,n)
pkg_pmf = hypergeom.pmf(x,N,k,n)
print(f"해당 분포의 확률질량함수(pmf) : {pmf}")
print(f"라이브러리 - 해당 분포의 확률질량함수(pmf) : {pkg_pmf}\n")

# 누적확률질량함수 : 파란공을 1개 이하로 선택할 확률은?
cdf = 0 
for i in range(0,x+1): # 확률변수들의 확률값들의 합
    cdf += math.comb(k,i) * math.comb(N-k,n-i)/math.comb(N,n)
print(f"해당 분포의 누적확률질량함수 {cdf}")
print(f"라이브러리 - 해당 분포의 누적확률질량함수(cdf) : {hypergeom.cdf(x,N,k,n)}\n")

# 초기하 분포의 이항분포 근사
from scipy.stats import binom 

b_result = binom.pmf(x,n,k/N)
h_result = hypergeom.pmf(x,N,k,n) 
print(f"초기하분포로 계산하면 {h_result:0.3f}, 이항분포로 근사 계산 {b_result:0.3f}")


해당 분포의 기대값은 0.2, 분산은 0.17818181818181822
라이브러리 - 해당 분포의 기대값은 0.2, 분산은 0.1781818181818182

해당 분포의 확률질량함수(pmf) : 0.18181818181818182
라이브러리 - 해당 분포의 확률질량함수(pmf) : 0.1818181818181818

해당 분포의 누적확률질량함수 0.990909090909091
라이브러리 - 해당 분포의 누적확률질량함수(cdf) : 0.990909090909091

초기하분포로 계산하면 0.182, 이항분포로 근사 계산 0.180


# 포아송분포

- $f(x) = \frac{e^{-λ}λ^x}{x!}, x = 0,1,2,...$
- $E(X) = λ$
- $Var(X) = λ$