# 1. 이산확률분포
## 1-1. 베르누이 분포: 동등한 실험조건 하 결과가 두가지만 있는 경우
- X ~ B(1, p)

| 항목                     | 내용                                                        |
| ---------------------- | --------------------------------------------------------- |
| **정의**                 | 두 가지 결과(성공: 1, 실패: 0) 중 하나만 발생하는 확률 분포                    |
| **확률변수** $X$           | $X \in \{0, 1\}$                                          |
| **성공 확률** $p$          | $0 \leq p \leq 1$                                         |
| **확률질량함수 (PMF)**       | $P(X = x) = p^x (1 - p)^{1 - x}$ <br> ($x = 0$ 또는 $1$)    |
| **기댓값 $E[X]$**         | $p$                                                       |
| **분산 $\text{Var}(X)$** | $p(1 - p)$                                                |
| **모멘트생성함수 (MGF)**      | $M_X(t) = 1 - p + pe^t$ (선택사항)                            |
| **예시**                 | $p = 0.7$일 때 <br> $E[X] = 0.7,\quad \text{Var}(X) = 0.21$ |


In [3]:
# 수기
p=0.3 #성공확률
q = 1-p #실패
E = p #기댓값
V = p*1
print(f"베르누이 분포 기댓값: {E:.2f}, 분산: {V:.2f}")
#라이브러리
from scipy.stats import bernoulli
E2, V2 = bernoulli.stats(p)
print(f"베르누이 분포 기댓값: {E2:.2f}, 분산: {V2:.2f}")

베르누이 분포 기댓값: 0.30, 분산: 0.30
베르누이 분포 기댓값: 0.30, 분산: 0.21


## 1-2. 이항분포

어떤 실험에서 성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복시행할 때 성공의 횟수를 확률변수 x

- n > 20, np >= 5일때 정규분포N(np, np(1-p))로 근사하며, 
- p <= 0.1, np=0.1~10, n>=50일 때 포아송 분포 P(np)로 근사

| 항목                     | 내용                                                                                             |
| ---------------------- | ---------------------------------------------------------------------------------------------- |
| **정의**                 | 독립적인 베르누이 시행을 $n$번 반복한 뒤, 성공한 횟수를 따르는 확률 분포                                                    |
| **확률변수** $X$           | $X \in \{0, 1, 2, ..., n\}$                                                                    |
| **성공 확률** $p$          | $0 \leq p \leq 1$ (각 시행의 성공 확률)                                                                |
| **시행 횟수** $n$          | 자연수 (시행 수)                                                                                     |
| **확률질량함수 (PMF)**       | $P(X = x) = \binom{n}{x} p^x (1 - p)^{n - x}$, <br> ($x = 0, 1, ..., n$)                       |
| **기댓값 $E[X]$**         | $np$                                                                                           |
| **분산 $\text{Var}(X)$** | $np(1 - p)$                                                                                    |
| **모멘트생성함수 (MGF)**      | $M_X(t) = [1 - p + pe^t]^n$                                                                    |
| **예시**                 | 동전을 10번 던질 때 앞면 나올 확률이 0.6이면 <br> $n = 10,\ p = 0.6$ <br> $E[X] = 6,\quad \text{Var}(X) = 2.4$ |


In [4]:
# 이항분포
from scipy.stats import binom
import numpy as np
fac = np.math.factorial

#근로자가 내년에 회사를 떠날 확률이 0.1로 추정한 경우 근로자 3명을 무작위로 뽑은 경우
n = 3
p = 0.1

#근로자가 떠날 확률 기대값, 분산
E = n*p
V = n*p*(1-p)

print(f"이항분포 기댓값: {E:.2f}, 분산: {V:.2f}")

# 라이브러리 
E2, V2 = binom.stats(n, p)
print(f"이항분포 기댓값: {E2:.2f}, 분산: {V2:.2f}")

이항분포 기댓값: 0.30, 분산: 0.27
이항분포 기댓값: 0.30, 분산: 0.27


In [9]:
#확률질량함수: 1명이 금년에 회사를 떠날 확률?
x = 1 #샘플수

def combi(a, b):
    rs = fac(a)/fac(b)/fac(a-b)
    return rs

pmf = combi(n, x)*p**x*(1-p)**(n-x)

print(f"확률질량함수: {pmf:.3f}")

print(f"확률질량함수: {binom.pmf(x, n, p)}")


확률질량함수: 0.243
확률질량함수: 0.243


In [15]:
# 누적확률질량함수: 1명 이하로 떠날 확률?
cdf = 0
for i in range(0, x+1):
    cdf += binom.pmf(i, n, p)
print(f"누적확률질량함수: {cdf:.3f}")
#라이브러리
print(f"누적확률질량함수: {binom.cdf(x, n, p)}")

누적확률질량함수: 0.972
누적확률질량함수: 0.972


In [21]:
# 이항분포 정규분포 근사
from scipy.stats import norm
x, n, p = 10, 30, 0.5 # n>=20, np>=5 / n = 30, np = 15 
b_result = binom.pmf(x, n, p)
E = n*p 
sigma = np.sqrt(E*(1-p)) # 이항분포 표준편차
zstat1 = (x-0.5-E)/sigma # 연속적인 값을 위한 보정
zstat2 = (x+0.5-E)/sigma
n_result = norm.cdf(zstat2) - norm.cdf(zstat1)
print(f"이항분포 : {b_result:.3f} , 정규분포 근사계산: {n_result:.3f}")

이항분포 : 0.028 , 정규분포 근사계산: 0.028


In [22]:
# 포아송 분포 근사
from scipy.stats import poisson
x, n, p = 10, 100, 0.05 # n >=50, p<=0.1, np 0.1~10
b_rs = binom.pmf(x, n, p)

E = n*p
p_rs = poisson.pmf(x, E)

print(f"이항분포 : {b_rs:.3f} , 포아송분포 근사계산: {p_rs:.3f}")

이항분포 : 0.017 , 포아송분포 근사계산: 0.018


## 1-3. 음이항분포

- 성공의 확률이 p인 베르누이 시행을 독립적으로 반복 시행할 때 **k번 성공할 때까지의 시행횟수**를 확률분포 x
- k번 성공할때까지의 실패횟수 x
- k가 1이면 기하분포

| 항목                     | **실패 수 기준** (`X = 실패 횟수`)                                              | **총 시행 수 기준** (`X = 총 시도 횟수`)                                       |
| ---------------------- | ---------------------------------------------------------------------- | ------------------------------------------------------------------- |
| **정의**                 | 성공 $r$번이 나오기 전까지의 **실패 수**                                             | 성공 $r$번이 나올 때까지의 **전체 시행 수**                                        |
| **확률변수 $X$**           | $X = 0, 1, 2, \dots$                                                   | $X = r, r+1, r+2, \dots$                                            |
| **PMF (확률질량함수)**       | $\displaystyle P(X = x) = \binom{x + r - 1}{r - 1} p^r (1 - p)^x$      | $\displaystyle P(X = x) = \binom{x - 1}{r - 1} p^r (1 - p)^{x - r}$ |
| **기댓값 $E[X]$**         | $\displaystyle E[X] = r \cdot \left(\frac{1 - p}{p}\right)$            | $\displaystyle E[X] = \frac{r}{p}$                                  |
| **분산 $\text{Var}(X)$** | $\displaystyle \text{Var}(X) = r \cdot \left(\frac{1 - p}{p^2}\right)$ | $\displaystyle \text{Var}(X) = \frac{r(1 - p)}{p^2}$                |
| **예시**                 | "성공 3번 나올 때까지 몇 번 실패?" → 실패 수                                          | "성공 3번 나올 때까지 총 몇 번 던졌나?" → 총 시행 수                                  |
| **특수한 경우**             | $r = 1$일 때 → **기하분포**                                                  | $r = 1$일 때 → **기하분포 (총 시행 기준)**                                     |


In [31]:
#음이항분포
from scipy.stats import nbinom

n = 5 #총시행횟수
k = 2 #총 성공횟수
p = 0.3 #성공확률
q = 1-p #실패확률

# k번 성공할 때까지의 시행횟수 x인 확률변수
x = n #총 시행횟수
E = k / p
V = k*q/p**2
pmf = combi(x-1, k-1)*p**k*q**(x-k)
cdf = 0
for i in range(k, x+1): # 2번 성공할 때부터 시행횟수까지 누적
    cdf += combi(i-1, k-1)*p**k*q**(i-k)
    
print(f"시행횟수 x 기댓값: {E:.3f}, 분포: {V:.3f}, 확률분포: {pmf:.3f}, 누적분포: {cdf:.3f}")

# k번 성공할 때까지의 실패횟수 x인 확률변수
x1 = n - k #실패횟수
E1 = k*q/p
V1 = k*q/p**2
pmf1 = combi(x1+k-1, k-1)*p**k*q**x1
cdf1 =  0
for i in range(0, x1+1): #총 실패횟수 누적(2번 이하로 이길 확률은?)
    cdf1 += combi(i+k-1, k-1)*p**k*q**i
# 5번째 경기에서 2번째로 이길 확률은?    
print(f"실패횟수 x 기댓값: {E1:.3f}, 분포: {V1:.3f}, 확률분포: {pmf1:.3f}, 누적분포: {cdf1:.3f}")

# 라이브러리 사용
pkg_E, pkg_V = nbinom.stats(k, p)
pkg_pmf, pkg_cdf = nbinom.pmf(x1, k, p), nbinom.cdf(x1, k, p)

print(f"라이브러리 실패횟수 x 기댓값: {pkg_E:.3f}, 분포: {pkg_V:.3f}, 확률분포: {pkg_pmf:.3f}, 누적분포: {pkg_cdf:.3f}")

시행횟수 x 기댓값: 6.667, 분포: 15.556, 확률분포: 0.123, 누적분포: 0.472
실패횟수 x 기댓값: 4.667, 분포: 15.556, 확률분포: 0.123, 누적분포: 0.472
라이브러리 실패횟수 x 기댓값: 4.667, 분포: 15.556, 확률분포: 0.123, 누적분포: 0.472


## 1-4. 기하분포

- 성공의 확률이 p인 베르누이 시행을 처음으로 성공할 때까지의 시행횟수 확률변수 x(이게 관심)
- 처음 성공할 때까지의 실패횟수 확률변수 x
- x는 셀 수는 있지만 값이 무한한 무한확률변수
- 이상확률분포 중 유일하게 무기억성의 성질을 가짐

| 항목                     | **실패 수 기준** (`X = 실패 횟수`)                                               | **총 시행 수 기준** (`X = 첫 성공까지 시행 수`)                  |
| ---------------------- | ----------------------------------------------------------------------- | -------------------------------------------------- |
| **정의**                 | 첫 성공 전까지 실패한 횟수                                                         | 첫 성공이 나올 때까지 총 몇 번 시도했는가                           |
| **확률변수 $X$**           | $X = 0, 1, 2, \dots$                                                    | $X = 1, 2, 3, \dots$                               |
| **성공 확률 $p$**          | 각 시행에서 성공할 확률 $0 < p < 1$                                               |                                                    |
| **PMF (확률질량함수)**       | $\displaystyle P(X = x) = (1 - p)^x \cdot p$                            | $\displaystyle P(X = x) = (1 - p)^{x - 1} \cdot p$ |
| **기댓값 $E[X]$**         | $\displaystyle \frac{1 - p}{p}$                                         | $\displaystyle \frac{1}{p}$                        |
| **분산 $\text{Var}(X)$** | $\displaystyle \frac{1 - p}{p^2}$                                       | $\displaystyle \frac{1 - p}{p^2}$                  |
| **모멘트생성함수 (MGF)**      | $\displaystyle M_X(t) = \frac{p}{1 - (1 - p)e^t},\quad t < -\ln(1 - p)$ | 동일                                                 |
| **예시**                 | 주사위를 던져 6이 처음 나오기 전까지 실패한 횟수                                            | 주사위를 던져 6이 처음 나올 때까지 던진 횟수                         |
| **관계**                 | 음이항분포에서 $r = 1$일 때의 경우                                                  | 음이항분포 총 시행 기준에서 $r = 1$                            |


In [40]:
# 기하분포
# 하나의 주사위를 세번 던질 때 세번째 시행에서 앞면 숫자가 6이 나올 확률?
from scipy.stats import geom
n = 3 #총 시행횟수
p = 1/6 # 성공확률(독립)
q = 1 - p #실패확률

case = 1
if case == 1: # 처음으로 성공할 때까지의 시행횟수 x
    x = n
    E =  1/ p
    V = q/p**2
    pmf = q**(x-1)*p
    # 라이브러리 
    E2, V2 = geom.stats(p, moments='mv') #평균, 분산
    pkg_pmf, pkg_cdf = geom.pmf(x, p), geom.cdf(x, p)
    cdf = 0
    for i in range(0, x+1): #총 누적 시행횟수 확률합
        cdf += q**(i-1)*p
        
elif case == 2: #처음으로 성공할 때까지의 실패횟수 x
        x = n-1
        E =  q/ p
        V = q/p**2
        pmf = q**x*p
        # 라이브러리 
        E2, V2 = np.nan, np.nan # 라이브러리 지원x
        pkg_pmf, pkg_cdf = np.nan, np.nan
        cdf = 0
        for i in range(0, x+1): #총 누적 시행횟수 확률합
            cdf += q**i*p
            
print(f"시행횟수" if case == 1 else "실패횟수")            
print(f"기댓값: {E:.3f}, 분산: {V:.3f}, 확률분포: {pmf:.3f}, 누적분포: {cdf:.3f}")
print(f"라이브러리 실패횟수 x 기댓값: {E2:.3f}, 분산: {V2:.3f}, 확률분포: {pkg_pmf:.3f}, 누적분포: {pkg_cdf:.3f}")
    

시행횟수
기댓값: 6.000, 분산: 30.000, 확률분포: 0.116, 누적분포: 0.621
라이브러리 실패횟수 x 기댓값: 6.000, 분산: 30.000, 확률분포: 0.116, 누적분포: 0.421


## 1-5. 초기하분포

- 크기 N의 유한모집단 중 크기 n크기의 확률표본을, N개 중 k개는 성공, (N-k)개는 실패로 분류하여 비복원으로 뽑을 때  
  성공횟수 X(N, k, n을 모수로 갖는 초기하분포를 따름)
- 첫 시도결과에 따라 시도가 달라지는 종속관계가 있을 경우 해당 분포를 따름
- 모집단 N 크기가 충분히 큰 경우, n개 시행 중 성공확률이 k/N인 이항분포 B(n, k/N)을 따름

| 항목                     | 내용                                                                                                  |
| ---------------------- | --------------------------------------------------------------------------------------------------- |
| **정의**                 | 전체 모집단에서 **복원 없이** $n$개를 추출할 때, 그 중 **성공(특정 특성)**인 항목이 $x$개일 확률                                 |
| **확률변수 $X$**           | 추출된 $n$개 중에서 성공 항목의 수 (예: 불량품의 개수)                                                                  |
| **모집단 크기 $N$**         | 전체 항목 수                                                                                             |
| **성공 항목 수 $K$**        | 모집단에서 성공(특정 특성)을 가진 항목 수                                                                            |
| **추출 개수 $n$**          | 복원 없이 뽑는 표본 수                                                                                       |
| **PMF (확률질량함수)**       | $\displaystyle P(X = x) = \frac{\binom{K}{x} \binom{N - K}{n - x}}{\binom{N}{n}} $                  |
| **기댓값 $E[X]$**         | $\displaystyle E[X] = n \cdot \frac{K}{N}$                                                          |
| **분산 $\text{Var}(X)$** | $\displaystyle \text{Var}(X) = n \cdot \frac{K}{N} \cdot \frac{N - K}{N} \cdot \frac{N - n}{N - 1}$ |
| **특징**                 | 복원 없는 표본추출 (→ 표본 간 독립 아님)                                                                           |
| **예시**                 | 총 20개의 부품 중 5개는 불량품. 이 중 6개를 무작위로 뽑았을 때, 불량품이 2개일 확률은?                                              |


In [52]:
# 초기하분포
from scipy.stats import hypergeom

print("문제: 상자 속에 빨간 공이 90개, 파란공이 10개 들어있다. 임의로 1개씩 두 번 꺼내고 다시 넣지 않을 때 1개가 파란공이 될 확률은?")
N = 100 #모집단 수
k = 10 #성공요소 수
n = 2 # 시행횟수
x = 1 # 성공횟수
p = k/N #총 모집단 중 파란공 뽑을 확률

E = n*p
V = n*p*(N-k)/N*((N-n)/(N-1))
 
E2, V2 = hypergeom.stats(N, k, n)
print(f"[수기] 평균: {E:.3f}, 분산: {V:.3f}")
print(f"[라이브러리] 평균: {E2:.3f}, 분산: {V2:.3f}")

# 확률질량함수 계산
pmf1 = combi(k, x)*combi(N-k, n-x)/combi(N, n)
cdf = 0
for i in range(0, x+1):
    cdf += combi(k, i)*combi(N-k, n-i)/combi(N, n)
print(f"[수기] 확률질량함수: {pmf1:.3f}, 누적함수: {cdf:.3f}")

pmf2, cdf2 = hypergeom.pmf(x, N, k, n), hypergeom.cdf(x, N, k, n)

print(f"[라이브러리] 확률질량함수: {pmf2:.3f}, 누적함수: {cdf2:.3f}")

문제: 상자 속에 빨간 공이 90개, 파란공이 10개 들어있다. 임의로 1개씩 두 번 꺼내고 다시 넣지 않을 때 1개가 파란공이 될 확률은?
[수기] 평균: 0.200, 분산: 0.178
[라이브러리] 평균: 0.200, 분산: 0.178
[수기] 확률질량함수: 0.182, 누적함수: 0.991
[라이브러리] 확률질량함수: 0.182, 누적함수: 0.991


In [56]:
# 이항분포 근사: 모집단 수가 충분히 큼
b_rs = binom.pmf(x, n, k/N)
h_rs = hypergeom.pmf(x, N, k, n)

print(f"이항: {b_rs:.3f}, 초기하: {h_rs:.3f}")

이항: 0.180, 초기하: 0.182


## 1-6. 포아송분포

- 단위시간, 면적 또는 공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 x 
- 확률변수 x는 람다(사건의 평균값)를 모수로 갖는 포아송 분포 따름
- 셀 수는 있지만 값이 무한한 무한확률변수, 시공간 발생횟수는 다른 시공간에 대해서 독립이며, 평균 출현횟수는 일정
- 람다가 5 이상일 때 정규분포 근사, 5 미만일 때 왼쪽으로 치우치며 오른쪽 긴꼬리 있는 비대칭 분포

| 항목                     | 내용                                                                         |
| ---------------------- | -------------------------------------------------------------------------- |
| **정의**                 | 단위 시간 또는 공간 내에서 어떤 사건이 **평균적으로 $\lambda$번 발생**할 때, 실제로 사건이 **$x$번 발생할 확률** |
| **확률변수 $X$**           | 사건이 발생한 횟수 $x = 0, 1, 2, \dots$                                            |
| **모수 $\lambda$**       | 단위 시간/공간당 평균 사건 발생 횟수 ($\lambda > 0$)                                      |
| **PMF (확률질량함수)**       | $\displaystyle P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!} $              |
| **기댓값 $E[X]$**         | $\lambda$                                                                  |
| **분산 $\text{Var}(X)$** | $\lambda$                                                                  |
| **특징**                 | 사건은 **독립적**이고, 같은 시간/공간 간격 내에서 **발생 확률이 일정**함                              |
| **예시**                 | 1시간에 평균 5건의 전화가 걸려오는 콜센터에서, 어느 한 시간 동안 3건이 걸려올 확률은?                        |



In [59]:
# 포아송분포
from scipy.stats import poisson

print("문제: 주말 저녁시간 당 평균 6명이 응급실에 올 경우, 어떤 주말 저녁 30분 내 4명이 도착할 확률은?")

x = 4 # 사건발생횟수
lam = 3 # 구간 내 평균 (6/2(1시간))

E = lam
V = lam

# 확률질량함수
pmf = lam**x*np.exp(-lam)/np.math.factorial(x)

#누적 활률질량함수: 4명 이하로 도착할 확률은?
cdf = 0
for i in range(0, x+1):
    cdf += lam**i*np.exp(-lam)/np.math.factorial(i)
    
print(f"평균: {E} , 분산: {E}, 확률질량: {pmf:.3f}, 누적확률질량: {cdf:.3f}")

#라이브러리
E1, V1 = poisson.stats(lam, moments='mv')
pmf1, cdf1 = poisson.pmf(x, lam), poisson.cdf(x, lam)

print(f"평균: {E1} , 분산: {E1}, 확률질량: {pmf1:.3f}, 누적확률질량: {cdf1:.3f}")

문제: 주말 저녁시간 당 평균 6명이 응급실에 올 경우, 어떤 주말 저녁 30분 내 4명이 도착할 확률은?
평균: 3 , 분산: 3, 확률질량: 0.168, 누적확률질량: 0.815
평균: 3.0 , 분산: 3.0, 확률질량: 0.168, 누적확률질량: 0.815


In [60]:
# 정규분포 근사
x = 10
lam = 20

E = V = lam

std = np.sqrt(V)

zstat1 = (x-0.5-E)/std
zstat2 = (x+0.5-E)/std

n_s = norm.cdf(zstat2) - norm.cdf(zstat1)
p_s = poisson.pmf(x, lam)

print(f"정규: {n_s:.3f}, 포아송: {p_s:.3f}")

정규: 0.007, 포아송: 0.006


# 2. 연속형 확률분포
## 2-1. 균일분포
구간(a, b)에서 확률변수 x가 균일하게 분포되어 있을 때

| 항목                     | 내용                                                              |
| ---------------------- | --------------------------------------------------------------- |
| **정의**                 | 실수 구간 $[a, b]$에서 **모든 값이 동일한 확률 밀도**를 가짐                        |
| **확률변수 $X$**           | $X \in [a, b]$                                                  |
| **PDF (확률밀도함수)**       | $\displaystyle f(x) = \frac{1}{b - a},\quad a \le x \le b $     |
| **기댓값 $E[X]$**         | $\displaystyle E[X] = \frac{a + b}{2} $                         |
| **분산 $\text{Var}(X)$** | $\displaystyle \text{Var}(X) = \frac{(b - a)^2}{12} $           |
| **누적분포함수 (CDF)**       | $\displaystyle F(x) = \frac{x - a}{b - a},\quad a \le x \le b $ |
| **예시**                 | 0초\~10초 사이 아무 때나 무작위로 이벤트 발생 ⏱️                                 |


In [80]:
# 균일분포
print("확률변수 x가 5, 15에서 균일분포를 따를 때 12~15 사이의 확률은?")
a = 5 # 범위 시작
b = 15 # 범위 끝
pdf = 1/ (b-a) #확률밀도함수
cdf = (15-12)/(b-a)

E = (b+a)/2
V = (b-a)**2/12

print(f"[수기] 기댓값: {E:.3f}, 분산: {V:.3f}, 확률밀도: {pdf:.3f}, 누적분포: {cdf:.3f}")

확률변수 x가 5, 15에서 균일분포를 따를 때 12~15 사이의 확률은?
[수기] 기댓값: 10.000, 분산: 8.333, 확률밀도: 0.100, 누적분포: 0.300


In [88]:
print("버스가 오전 7시부터 15분 간격으로 정류장을 출발한다. 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이의 균등분포를\n 따른다고 할 때, 이 승객이 버스를 5분 미만 기다릴 확률은?")

a = 0 #균등분포 시작
b = 30 #끝

#승객이 버스를 5분 미만으로 기다릴 구간: 7시 10분 ~ 15분, 7시 25분 ~ 30분
r = [(10, 15), (25, 30)]
p = 1/(b-a)

cdf = 0
for x1, x2 in r:
    cdf += (x2-x1)*p
    
E = (b+a)/2
V = (b-a)**2/12

print(f"[수기] 기댓값: {E:.3f}, 분산: {V:.3f}, 확률밀도: {pdf:.3f}, 누적분포: {cdf:.3f}")

버스가 오전 7시부터 15분 간격으로 정류장을 출발한다. 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이의 균등분포를
 따른다고 할 때, 이 승객이 버스를 5분 미만 기다릴 확률은?
[수기] 기댓값: 15.000, 분산: 75.000, 확률밀도: 0.100, 누적분포: 0.333


## 2-2. 정규분포와 표준정규분포
- 정규분포의 왜도는 0, 첨도는 3


| 항목                     | **정규분포 (Normal)**                                                                       | **표준정규분포 (Standard Normal)**                                      |
| ---------------------- | --------------------------------------------------------------------------------------- | ----------------------------------------------------------------- |
| **기호**                 | $X \sim N(\mu, \sigma^2)$                                                               | $Z \sim N(0, 1)$                                                  |
| **정의**                 | 평균 $\mu$, 표준편차 $\sigma$ 를 갖는 연속 확률분포                                                    | $\mu = 0$, $\sigma = 1$ 인 특수한 정규분포                                |
| **확률변수 범위**            | 실수 전체 ($X \in \mathbb{R}$)                                                              | 실수 전체 ($Z \in \mathbb{R}$)                                        |
| **PDF**                | $\displaystyle f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} $ | $\displaystyle f(z) = \frac{1}{\sqrt{2\pi}} e^{- \frac{z^2}{2}} $ |
| **기댓값 $E[X]$**         | $\mu$                                                                                   | $0$                                                               |
| **분산 $\text{Var}(X)$** | $\sigma^2$                                                                              | $1$                                                               |
| **누적분포함수 (CDF)**       | $\displaystyle P(X \le x) = \int_{-\infty}^{x} f(t)\,dt$                                | $\Phi(z) = P(Z \le z)$                                            |
| **Z-변환 공식**            | $\displaystyle Z = \frac{X - \mu}{\sigma} $                                             | 이미 표준화되어 있음                                                       |
| **사용 목적**              | 실측 데이터 모델링                                                                              | 정규분포를 표준화하여 비교 및 테이블 사용                                           |
| **예시**                 | 시험 점수, 키, 몸무게 등                                                                         | 변환된 점수(Z-score), 백분위 계산 등                                         |


In [91]:
# 정규분포
E = 30
V = 64
std = np.sqrt(V)

X1 = 26
X2 = 46
zstat1 = (X1-E)/std #표준화
zstat2 = (X2-E)/std
cdf = norm.cdf(zstat2) - norm.cdf(zstat1)

print(f"기댓값: {E}, 분산: {V}, 누적확률: {cdf:.3f}")


기댓값: 30, 분산: 64, 누적확률: 0.669


In [92]:
# 표준정규분포
print("확률변수 x가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?")

E, V = 0, 1
std = np.sqrt(V)
z1 = -1.96
z2 = 1.96

cdf = norm.cdf(z2) - norm.cdf(z1)

print(f"기댓값: {E}, 분산: {V}, 누적확률: {cdf:.3f}")

확률변수 x가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?
기댓값: 0, 분산: 1, 누적확률: 0.950


## 2-3. 지수분포
- 한번의 사건이 발생할 때까지 소요되는 시간의 분포
- 어떤 사건이 포아송 분포에 의해 발생될 때 지정된 시점으로부터 이 사건의 일어날 때까지 걸린 시간을 측정하는 확률분포
- X: 한 번의 사건이 발생할 때까지 소요시간, 람다: 단위시간 동안 평균적으로 발생한 사건의 횟수
- 연속확률분포 중 유일하게 무기억성의 성질을 가짐(남은 전구의 수명은 지금까지 사용한 시간과 무관)
- 오른쪽 꼬리모양, 왜도는 2

| 항목                     | **내용**                                                                                                        |
| ---------------------- | ------------------------------------------------------------------------------------------------------------- |
| **기호**                 | $X \sim \text{Exp}(\lambda)$                                                                                  |
| **정의**                 | 단위 시간당 사건이 평균 $\lambda$ 번 발생할 때, **두 사건 사이의 시간 간격**에 대한 확률분포                                                  |
| **확률변수 범위**            | $X \ge 0$ (0 이상의 실수)                                                                                          |
| **모수 (Parameter)**     | $\lambda > 0$ (단위 시간당 평균 발생률)                                                                                 |
| **PDF (확률밀도함수)**       | $\displaystyle f(x) = \lambda e^{-\lambda x},\quad x \ge 0$                                                   |
| **기댓값 $E[X]$**         | $\displaystyle \frac{1}{\lambda}$                                                                             |
| **분산 $\text{Var}(X)$** | $\displaystyle \frac{1}{\lambda^2}$                                                                           |
| **누적분포함수 (CDF)**       | $\displaystyle F(x) = 1 - e^{-\lambda x},\quad x \ge 0$                                                       |
| **특징**                 | - **기억 없음 (Memoryless)** 성질을 가짐<br>- 포아송 분포와 관련: $T \sim \text{Exp}(\lambda)$ ⇔ 포아송 간격<br>- 사건 간 시간 간격 분석에 적합 |
| **예시**                 | - 다음 고객이 도착할 때까지 걸리는 시간<br>- 서버 요청 간 시간<br>- 고장까지 걸리는 시간 등                                                    |


In [94]:
from scipy.stats import expon

print("자동차들 사이 시간간격이 평균 3분인 지수확률 분포를 따르는 경우, 연속한 두대의 차량이 도착하는 시간이 2분 이내일 확률은?")
lam = 1/3 #단위시간  동안 발생한 사건횟수(단위시간: 1분)
x = 2 # 사건이 일어날 때까지 걸리는 시간

E = 1/lam
V = 1/(lam**2)

cdf = expon.cdf(x, scale=E)

print(f"기댓값: {E}, 분산: {V}, 누적확률: {cdf:.3f}")

자동차들 사이 시간간격이 평균 3분인 지수확률 분포를 따르는 경우, 연속한 두대의 차량이 도착하는 시간이 2분 이내일 확률은?
기댓값: 3.0, 분산: 9.0, 누적확률: 0.487


## 2-4. 감마분포
- 지수분포의 확장개념으로 a번의 사건이 발생할 때까지의 대기시간 분포
- 지수분포의 일반화된 형태로 a=1인 경우 b=1/람다인 지수분포가 됨

| 항목                     | **내용**                                                                                                              |
| ---------------------- | ------------------------------------------------------------------------------------------------------------------- |
| **기호**                 | $X \sim \text{Gamma}(\alpha, \beta)$<br>또는 $X \sim \text{Gamma}(k, \theta)$                                         |
| **정의**                 | **지수분포의 확장판**으로, 사건이 $\alpha$번 발생할 때까지의 시간에 대한 분포                                                                   |
| **확률변수 범위**            | $X \ge 0$                                                                                                           |
| **모수 (Parameters)**    | - $\alpha = k > 0$: shape (형상)<br>- $\beta = 1/\theta > 0$: rate (비율) 또는 $\theta > 0$: scale (척도)                   |
| **PDF (확률밀도함수)**       | $\displaystyle f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x}, \quad x \ge 0$               |
| **기댓값 $E[X]$**         | $\displaystyle \frac{\alpha}{\beta} = k\theta$                                                                      |
| **분산 $\text{Var}(X)$** | $\displaystyle \frac{\alpha}{\beta^2} = k\theta^2$                                                                  |
| **누적분포함수 (CDF)**       | $\displaystyle F(x) = \int_0^x f(t)\,dt $ (closed form 없음, 수치 계산)                                                   |
| **특징**                 | - 지수분포는 감마분포의 특수한 경우 ($\alpha = 1$)<br>- 카이제곱분포는 $\text{Gamma}(k/2, 1/2)$와 동일<br>- 생존 분석, 대기 시간 모델링, 포아송 과정에서 자주 사용 |
| **예시**                 | - 3번째 고장까지 걸리는 시간<br>- 5번째 고객 도착까지 걸리는 시간 등                                                                         |
                                                              |


In [99]:
from scipy.stats import gamma

print("낚시를 하는데 어부가 물고기를 30분에 한 마리씩 잡는다. \n어부가 4마리의 물고기를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이로 소요될 확률은?")

lam = 2 # 시간으로 환산 시 2마리임
beta = 1/lam
a = 4 # 몇번의 사건
E = a*beta
V = a*(beta**2)
cdf = gamma.cdf(3, a, scale=beta) - gamma.cdf(1, a, scale=beta)

print(f"\n기댓값: {E}, 분산: {V}, 누적확률: {cdf:.3f}")

낚시를 하는데 어부가 물고기를 30분에 한 마리씩 잡는다. 
어부가 4마리의 물고기를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이로 소요될 확률은?

기댓값: 2.0, 분산: 1.0, 누적확률: 0.706


In [100]:
print("배송시간이 a=20(횟수), lam=1.6(평균시간)인 감마분포를 따를 때,\n20개 철판을 배송할 때 걸리는 시간이 15분 이내일 확률은?")

lam = 1.6 # 시간으로 환산 시 2마리임
beta = 1/lam
a = 20 # 몇번의 사건
E = a*beta
V = a*(beta**2)
cdf = gamma.cdf(15, a, scale=beta) - gamma.cdf(0, a, scale=beta)

print(f"\n기댓값: {E}, 분산: {V}, 누적확률: {cdf:.3f}")

배송시간이 a=20(횟수), lam=1.6(평균시간)인 감마분포를 따를 때,
20개 철판을 배송할 때 걸리는 시간이 15분 이내일 확률은?

기댓값: 12.5, 분산: 7.8125, 누적확률: 0.820


## 2-5. 카이제곱 분포
- 감마분포의 특수한 경우로 a= k/2, b=2인 경우를 자유도 k인 카이제곱 분포라고 함
***사용예***
- 모집단이 정규분포인 대표본에서 모분산 추정/검정
- 비모수 검정 중에서 범주형 변수들에 대한 적합도 검정, 독립성 검정, 동질성 검정을 하는데 사용

| 항목                     | **내용**                                                                     |
| ---------------------- | -------------------------------------------------------------------------- |
| **기호**                 | $X \sim \chi^2(k)$                                                         |
| **정의**                 | $k$개의 독립된 표준정규분포 제곱합: $\sum Z_i^2$                                         |
| **확률변수 범위**            | $X \ge 0$                                                                  |
| **모수**                 | 자유도 $k$                                                                    |
| **PDF**                | $\displaystyle f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2} $ |
| **기댓값 $E[X]$**         | $k$                                                                        |
| **분산 $\text{Var}(X)$** | $2k$                                                                       |
| **특징**                 | 감마분포의 특수한 경우 ($\alpha = k/2, \beta = 1/2$)<br>분산 분석, 적합도 검정, 독립성 검정 등      |
| **예시**                 | 표본분산, 분산비 비교, 카이제곱 검정 등                                                    |


## 2-6. t분포
- 표본평균을 표본분산으로 표준화 한 값이 따르는 확률분포
- student's t-distibution이라고 함
- ***모분산을 모르는 상황에서 표본평균을 추정/검정할 때 사용***
- 자유도가 증가할수록 표준정규분포에 수렴, 주로 30개 이하의 소표본에 사용


| 항목                     | **내용**                                                                                                             |
| ---------------------- | ------------------------------------------------------------------------------------------------------------------ |
| **기호**                 | $T \sim t(k)$                                                                                                      |
| **정의**                 | 표준정규분포와 카이제곱분포의 비율: $\displaystyle T = \frac{Z}{\sqrt{X/k}},\ X \sim \chi^2(k)$                                    |
| **확률변수 범위**            | 실수 전체 ($\mathbb{R}$)                                                                                               |
| **모수**                 | 자유도 $k$                                                                                                            |
| **PDF**                | $\displaystyle f(t) = \frac{\Gamma((k+1)/2)}{\sqrt{k\pi} \Gamma(k/2)} \left(1 + \frac{t^2}{k} \right)^{-(k+1)/2} $ |
| **기댓값 $E[T]$**         | $0$ (단, $k > 1$)                                                                                                   |
| **분산 $\text{Var}(T)$** | $\frac{k}{k - 2}$ (단, $k > 2$)                                                                                     |
| **특징**                 | 정규분포보다 꼬리가 두꺼움 (heavy-tailed)<br>표본 수 작을 때 유용                                                                      |
| **예시**                 | 평균 차이 검정, 회귀계수 검정 등 (t-test)                                                                                       |


## 2-7. F분포
- 두 모집단의 모분산 비의 추정/검정
- 세집단 이상의 모평균 비교에 사용
- Fisher - Snedecor distribution이라고 함
- 확률변수 x가 F(m, n)을 따를 때, 1/x는 F(n, m)을 따름


| 항목                     | **내용**                                                                                                   |
| ---------------------- | -------------------------------------------------------------------------------------------------------- |
| **기호**                 | $F \sim F(d_1, d_2)$                                                                                     |
| **정의**                 | 두 카이제곱 분포의 비율: $\displaystyle F = \frac{X_1/d_1}{X_2/d_2}$, $X_1 \sim \chi^2(d_1), X_2 \sim \chi^2(d_2)$ |
| **확률변수 범위**            | $F \ge 0$                                                                                                |
| **모수**                 | 자유도 $d_1$ (분자), $d_2$ (분모)                                                                               |
| **PDF**                | 복잡한 형태 (필요시 제공 가능)                                                                                       |
| **기댓값 $E[F]$**         | $\frac{d_2}{d_2 - 2}$ (단, $d_2 > 2$)                                                                     |
| **분산 $\text{Var}(F)$** | $\displaystyle \frac{2d_2^2(d_1 + d_2 - 2)}{d_1(d_2 - 2)^2(d_2 - 4)}$, $d_2 > 4$                         |
| **특징**                 | 분산 비교, 회귀 모형 전체 유의성 검정 등                                                                                 |
| **예시**                 | 분산분석(ANOVA), 회귀모형 F-test 등                                                                               |


# 연습문제

1. 어느 권총 사격선수가 과녁의 정중앙을 맞힐 확률이 80%하고 한다. 이 선수가 총 5번 사격할 떄  
평균적으로 몇 번 정중앙을 맞히는지 구하시오.

2. 전체 청소년의 40%가 11시 이전에 잠을 잔다고 한다면, 임의로 선택한 10명의 청소년 중에서 3명이 11시 이전에  
잠을 잘 확률을 계산하시오.(소숫점 첫째 자리까지 반올림)

3. 어느 아파트 단지에서 밤 11시부터 새벽 2시 사이에 배달되는 음식배달건수는 시간 당 평균 5건이다.  
음식배달건수의 분포가 포아송 분포를 따른다면 오늘 새벽 12시와 1시 사이에 배달이 1건만 발생할 확률을 구하시오.(소숫점 둘째 반올림)

4. A대학교 B전공 시험의 성적분포는 평균이 65, 표준편차 12인 정규분포를 따른다고 한다.  
최고 점수부터 10%까지를 A+로 분류한다면 A+를 받기 위해 최소 몇 점을 받아야 하는가?

In [113]:
#1. 이항분포
n = 5
p = 0.8
E, V = binom.stats(n, p)
pmf = binom.pmf(1, 5, p) #1명의 선수가 정중앙 맞출 확률
print(f"평균적으로 {E} 번 정중앙을 맞춤")

print(f"pmf 는 {pmf:.3f}")

평균적으로 4.0 번 정중앙을 맞춤
pmf 는 0.006


In [114]:
#2. 이것도 이항분포
n = 10
p = 0.4


pmf = binom.pmf(3, n, p)
print(f"3명이 잠 잘 확률: {pmf:.3f}")

3명이 잠 잘 확률: 0.215


In [121]:
#3. 이건 포아송 분포: 구해야 할 시간범위는 1시간임.
x = 1 # 관측건수
lam = 5 #시간 범위가 중요한 게 아니다. 이미 문제에 시간당 평균 건수가 나와있음.
#관측시간이 n시간인 경우, lam = 5*n

pmf = poisson.pmf(x, lam)
print(f"1건만 발생할 확률: {pmf:.2f}")

1건만 발생할 확률: 0.03


In [123]:
# 4. 정규분포 문제
E, std = 65, 12

# 표준화 점수
z = norm.ppf(1-0.1)

#z -> x 변환
x = z*std+E

print(f"최소점수: {x:.2f}")


최소점수: 80.38
