# 14강. 몇 가지 확률분포

## 이론

(1) 이항분포
- 베르누이 시행(Bernoulli trial): 동전 던지기와 같이 정확하게 2개의 결과만을 가지는 실험
    - 보통 성공과 실패로 결과를 구분
    - 성공 확률 $p$에 대해 논함.
        
        
- 확률변수 X
   - $n$번의 베르누이 시행에서 성공의 횟수
   - 이항확률변수라고 함


- 이항분포(binomial distribution)
   - 이항확률변수 $X$의 확률분포
   - $f(x) = P[X = x] = \begin{pmatrix}
n \\ 
x
\end{pmatrix}p^{x}(1-p)^{n-x}$

In [1]:
from scipy import stats
1 - stats.binom.cdf(0, n=3, p=0.2)

0.4879999999999999

- 이항분포의 계산
    1. 평균: $E(X) = np$
    
    2. 분산: $Var(X) = np(1-p)$
    
    3. 표준편차: $SD(X) = \sqrt {np(1-p)}$

In [3]:
# 평균, 분산
stats.binom.stats(n=3, p=0.2)

(array(0.6), array(0.48))

(2) 정규분포
> 연속확률변수의 확률 분포

- 확률밀도함수(probability density function): $f(x)$
    - 그래프 아래의 부분의 넓이를 적분해서 확률을 구함.
    - $P[a \leq X \leq b]= \int_{a}^{b}f(x)dx$
    
    
- ***정규분포의 확률밀도함수***
    - $f(x) = \frac {1} {\sqrt{2 \pi} \sigma} e^{- \frac {1} {2} \left( \frac {x- \mu} {\sigma}\right)^{2}}$
        - $X$~$N(\mu, \sigma^{2})$
        - 적분 불가 함수
        
- 표준정규확률변수(standard normal random variable)
> $$Z = \frac {X - \mu} {\sigma}$$


- 표준정규분포(standard normal distribution)
    - $Z$~$N(0, 1)$, 즉, $\mu = 0$ and $\sigma = 1$인 정규분포
    - 표준정규분포표
        - $P[Z \leq z]$



(2)-1. 예제
   - $X$~$N(4, 3^{2})$ 인 경우
       - $P[X \leq 4]= P \left[ \frac{X-\mu} {\sigma} \leq \frac{4 - \mu} {\sigma} \right ] = P \left [Z \leq \frac {4 - \mu} {3} \right ] = P[Z \leq 0] = 0.5$

In [5]:
# X~N(4, 3^2)일 때, P[X<=4]
stats.norm.cdf(4, loc=4, scale=3)

0.5

   - $X$~$N(4, 3^{2})$ 인 경우
       - $P[4 \leq X \leq 7]= P[X \leq 7] - P[X < 4] = P \left [Z \leq \frac {7 - 4} {3} \right ] - P[Z < 0] = P[Z \leq 1] - P[Z < 0] = 0.8413 - 0.5 = 0.3413$

In [7]:
# X~N(4, 3^2)일 때, P[4<=X<=7]
stats.norm.cdf(7, loc=4, scale=3) - stats.norm.cdf(4, loc=4, scale=3)

0.3413447460685429

(3) 포아송 분포(Poisson distribution)
> 일정한 시간 단위 또는 공간 단위에서 발생하는 이벤트 수의 확률분포

- 포아송 분포의 확률분포함수(확률질량함수)
    - $P[X = x] = f(x) = \lambda^{x} \frac {e^{-\lambda}} {x!}, x = 0, 1, 2, \dots$
        - 평균: $\lambda$
        - 분산: $\lambda$

(3)-1. 예제

- 어느 웹사이트의 시간당 접속자 수가 평균이 3인 포아송 분포를 따를 때, 앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?
    - $P[X \leq 2] = P[X = 0] + P[X = 1] + P[X = 2] = 3^{0} \frac {e^{-3}} {0!} + 3^{1} \frac {e^{-3}} {1!} + 3^{2} \frac {e^{-3}} {2!} = 0.04998 + 0.14936 + 0.22404 = 0.42319$

In [11]:
# P[X <= 2]

stats.poisson.cdf(2, mu=3)

0.42319008112684364

(4) 지수분포(exponential distribution)
> 포아송 분포에 의해 어떤 사건이 발생할 떄, 어느 한 시점으로부터 이 사건이 발생할 때까지 ***걸리는 시간***에 대한 확률 분포.

- 지수분포의 확률밀도함수
    - $f(t) = \lambda e^{-\lambda t}$
        - $\lambda$: 포아송분포의 평균
        - 평균: $E(T) = \frac {1} {\lambda}$
        - 분산: $Var(T) = \frac {1} {\lambda^{2}}$

(4)-1. 예제
- 어느 웹사이트에 시간당 접속자 수가 평균이 3인 포아송 분포을 따를 때, 지금부터 시작하여 첫 번째 접속자가 30분 이내에 올 확률은?
    - $P[T \leq 0.5] = \int_{0}^{0.5} \lambda e^{-\lambda t}dt = \int_{0}^{0.5} 3e^{-3t}dt = [-e^{-3t}]_{0}^{0.5} = 1 - e^{-1.5} = 1 - 0.2231 = 0.7769$

In [14]:
# P[T <=0.5]
lmbd=3
stats.expon.cdf(0.5, scale=1/lmbd)

0.7768698398515702