# 06. 이산/연속 확률 분포 심화

## 학습 목표
- 이산형 vs 연속형 확률 분포 완벽 이해
- 주요 분포들의 특성과 응용
- 기댓값, 분산 계산 마스터
- 많은 예제 및 연습 문제

---

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.special import comb

sns.set_style('whitegrid')
np.random.seed(42)

## 1. 이산형 확률 분포 (Discrete)

### 1.1 정의

**확률 질량 함수 (PMF)**: $p(x) = P(X = x)$

**성질**:
1. $0 \leq p(x) \leq 1$ for all $x$
2. $\sum_{x} p(x) = 1$

**기댓값**: $E[X] = \sum_x x \cdot p(x)$

**분산**: $\text{Var}(X) = E[X^2] - (E[X])^2 = \sum_x (x - \mu)^2 p(x)$

### 1.2 Bernoulli 분포

**설명**: 1번 시행, 성공/실패

- $X \in \{0, 1\}$
- $P(X = 1) = p$, $P(X = 0) = 1 - p$

**PMF**: 
$$p(x) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}$$

**기댓값**: $E[X] = p$

**분산**: $\text{Var}(X) = p(1-p)$

**응용**: 동전 던지기, Yes/No 질문

In [None]:
# 예제 1-1: Bernoulli 분포

p = 0.6  # 성공 확률

# 이론값
mean_theory = p
var_theory = p * (1 - p)

print("=== Bernoulli(p=0.6) ===")
print(f"P(X=1) = {p}")
print(f"P(X=0) = {1-p}")
print(f"\nE[X] = {mean_theory}")
print(f"Var(X) = {var_theory:.4f}")

# 시뮬레이션
n_samples = 10000
samples = np.random.binomial(1, p, n_samples)

print(f"\n시뮬레이션 (n={n_samples}):")
print(f"Sample mean: {samples.mean():.4f}")
print(f"Sample var: {samples.var():.4f}")

# 시각화
plt.figure(figsize=(8, 5))
values, counts = np.unique(samples, return_counts=True)
plt.bar(values, counts/n_samples, alpha=0.7, color='steelblue', edgecolor='black')
plt.xlabel('X')
plt.ylabel('확률')
plt.title(f'Bernoulli Distribution (p={p})')
plt.xticks([0, 1])
# 이론값 표시
plt.axhline((1-p), color='r', linestyle='--', alpha=0.5, label='이론값')
plt.axhline(p, color='r', linestyle='--', alpha=0.5)
plt.legend()
plt.show()

### 1.3 이항 분포 (Binomial)

**설명**: $n$번 독립 시행, 성공 횟수

- $X$: 성공 횟수, $X \in \{0, 1, \ldots, n\}$
- 각 시행의 성공 확률 = $p$

**PMF**:
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$

**기댓값**: $E[X] = np$

**분산**: $\text{Var}(X) = np(1-p)$

**응용**: 시험 정답 개수, 불량품 개수

In [None]:
# 예제 1-2: 이항 분포

n = 10  # 시행 횟수
p = 0.5  # 성공 확률

# PMF 계산
k_values = np.arange(0, n+1)
pmf = stats.binom.pmf(k_values, n, p)

# 이론값
mean = n * p
var = n * p * (1 - p)

print(f"=== Binomial(n={n}, p={p}) ===")
print(f"E[X] = np = {mean}")
print(f"Var(X) = np(1-p) = {var}")

# 시각화
plt.figure(figsize=(10, 6))
plt.bar(k_values, pmf, alpha=0.7, color='orange', edgecolor='black')
plt.axvline(mean, color='r', linestyle='--', linewidth=2, label=f'Mean = {mean}')
plt.xlabel('k (성공 횟수)')
plt.ylabel('P(X = k)')
plt.title(f'Binomial Distribution: n={n}, p={p}')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# 확률 계산 예제
print("\n=== 확률 계산 ===")
print(f"P(X = 5) = {pmf[5]:.4f}")
print(f"P(X ≤ 3) = {stats.binom.cdf(3, n, p):.4f}")
print(f"P(X > 7) = {1 - stats.binom.cdf(7, n, p):.4f}")

### 1.4 Poisson 분포

**설명**: 단위 시간/공간당 사건 발생 횟수

- $X \in \{0, 1, 2, \ldots\}$ (무한)
- Parameter: $\lambda$ (평균 발생률)

**PMF**:
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

**기댓값**: $E[X] = \lambda$

**분산**: $\text{Var}(X) = \lambda$

**응용**: 시간당 방문자 수, 페이지당 오타 수

In [None]:
# 예제 1-3: Poisson 분포

lambdas = [1, 5, 10]
k_max = 20
k_values = np.arange(0, k_max+1)

plt.figure(figsize=(12, 6))

for lam in lambdas:
    pmf = stats.poisson.pmf(k_values, lam)
    plt.plot(k_values, pmf, 'o-', label=f'λ={lam}', alpha=0.7, markersize=6)

plt.xlabel('k (발생 횟수)')
plt.ylabel('P(X = k)')
plt.title('Poisson Distribution for Different λ')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# 예제 계산
lam = 3  # 시간당 평균 3건
print(f"\n=== Poisson(λ={lam}) ===")
print(f"E[X] = Var(X) = λ = {lam}")
print(f"\nP(X = 0) = {stats.poisson.pmf(0, lam):.4f}")
print(f"P(X = 3) = {stats.poisson.pmf(3, lam):.4f}")
print(f"P(X ≥ 5) = {1 - stats.poisson.cdf(4, lam):.4f}")

### 1.5 기하 분포 (Geometric)

**설명**: 첫 성공까지 시행 횟수

- $X \in \{1, 2, 3, \ldots\}$
- 성공 확률 = $p$

**PMF**:
$$P(X = k) = (1-p)^{k-1} p$$

**기댓값**: $E[X] = \frac{1}{p}$

**분산**: $\text{Var}(X) = \frac{1-p}{p^2}$

**응용**: 첫 성공까지 시도 횟수

In [None]:
# 예제 1-4: 기하 분포

p = 0.2  # 성공 확률
k_values = np.arange(1, 21)
pmf = stats.geom.pmf(k_values, p)

mean = 1 / p
var = (1 - p) / p**2

plt.figure(figsize=(10, 6))
plt.bar(k_values, pmf, alpha=0.7, color='green', edgecolor='black')
plt.axvline(mean, color='r', linestyle='--', linewidth=2, label=f'Mean = {mean:.1f}')
plt.xlabel('k (시행 횟수)')
plt.ylabel('P(X = k)')
plt.title(f'Geometric Distribution (p={p})')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

print(f"=== Geometric(p={p}) ===")
print(f"E[X] = 1/p = {mean}")
print(f"Var(X) = (1-p)/p² = {var:.2f}")
print(f"\nP(X = 1) = {pmf[0]:.4f} (첫 시도에 성공)")
print(f"P(X ≤ 5) = {stats.geom.cdf(5, p):.4f} (5번 안에 성공)")

## 2. 연속형 확률 분포 (Continuous)

### 2.1 정의

**확률 밀도 함수 (PDF)**: $f(x)$

**성질**:
1. $f(x) \geq 0$ for all $x$
2. $\int_{-\infty}^{\infty} f(x) dx = 1$
3. $P(a \leq X \leq b) = \int_a^b f(x) dx$

**주의**: $P(X = a) = 0$ (특정 값의 확률은 0!)

**기댓값**: $E[X] = \int_{-\infty}^{\infty} x f(x) dx$

**분산**: $\text{Var}(X) = \int (x - \mu)^2 f(x) dx$

### 2.2 균등 분포 (Uniform)

**설명**: $[a, b]$ 구간에서 균등

**PDF**:
$$f(x) = \begin{cases}
\frac{1}{b-a} & a \leq x \leq b \\
0 & \text{otherwise}
\end{cases}$$

**기댓값**: $E[X] = \frac{a + b}{2}$

**분산**: $\text{Var}(X) = \frac{(b-a)^2}{12}$

**응용**: 랜덤 숫자 생성

In [None]:
# 예제 2-1: 균등 분포

a, b = 0, 10
x = np.linspace(a-2, b+2, 1000)
pdf = stats.uniform.pdf(x, a, b-a)

mean = (a + b) / 2
var = (b - a)**2 / 12

plt.figure(figsize=(10, 6))
plt.plot(x, pdf, 'b-', linewidth=2, label='PDF')
plt.fill_between(x, pdf, alpha=0.3)
plt.axvline(mean, color='r', linestyle='--', linewidth=2, label=f'Mean = {mean}')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title(f'Uniform Distribution U({a}, {b})')
plt.legend()
plt.grid(alpha=0.3)
plt.ylim(0, 0.15)
plt.show()

print(f"=== Uniform({a}, {b}) ===")
print(f"E[X] = (a+b)/2 = {mean}")
print(f"Var(X) = (b-a)²/12 = {var:.4f}")
print(f"\nP(3 ≤ X ≤ 7) = {stats.uniform.cdf(7, a, b-a) - stats.uniform.cdf(3, a, b-a):.2f}")
print(f"이론값: (7-3)/(10-0) = 0.40")

### 2.3 정규 분포 (Normal/Gaussian)

**가장 중요한 분포!**

**PDF**:
$$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

**기댓값**: $E[X] = \mu$

**분산**: $\text{Var}(X) = \sigma^2$

**표기**: $X \sim \mathcal{N}(\mu, \sigma^2)$

**68-95-99.7 규칙**:
- $P(\mu - \sigma \leq X \leq \mu + \sigma) \approx 0.68$
- $P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \approx 0.95$
- $P(\mu - 3\sigma \leq X \leq \mu + 3\sigma) \approx 0.997$

In [None]:
# 예제 2-2: 정규 분포

mu, sigma = 0, 1  # 표준 정규분포
x = np.linspace(-4, 4, 1000)
pdf = stats.norm.pdf(x, mu, sigma)

plt.figure(figsize=(12, 7))
plt.plot(x, pdf, 'b-', linewidth=2, label='PDF')
plt.fill_between(x, pdf, alpha=0.2)

# 68-95-99.7 표시
for k, alpha, label in [(1, 0.3, '68%'), (2, 0.2, '95%'), (3, 0.1, '99.7%')]:
    x_range = np.linspace(mu - k*sigma, mu + k*sigma, 100)
    y_range = stats.norm.pdf(x_range, mu, sigma)
    plt.fill_between(x_range, y_range, alpha=alpha, label=f'±{k}σ ({label})')

plt.axvline(mu, color='r', linestyle='--', linewidth=2, label=f'Mean = {mu}')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title(f'Normal Distribution N({mu}, {sigma}²)')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

print(f"=== N({mu}, {sigma}²) ===")
print(f"E[X] = {mu}")
print(f"Var(X) = {sigma**2}")
print(f"\n68-95-99.7 검증:")
p_1sigma = stats.norm.cdf(mu + sigma, mu, sigma) - stats.norm.cdf(mu - sigma, mu, sigma)
p_2sigma = stats.norm.cdf(mu + 2*sigma, mu, sigma) - stats.norm.cdf(mu - 2*sigma, mu, sigma)
p_3sigma = stats.norm.cdf(mu + 3*sigma, mu, sigma) - stats.norm.cdf(mu - 3*sigma, mu, sigma)
print(f"P(μ-σ ≤ X ≤ μ+σ) = {p_1sigma:.4f}")
print(f"P(μ-2σ ≤ X ≤ μ+2σ) = {p_2sigma:.4f}")
print(f"P(μ-3σ ≤ X ≤ μ+3σ) = {p_3sigma:.4f}")

### 2.4 지수 분포 (Exponential)

**설명**: 사건 발생까지 대기 시간

- Poisson 과정의 대기 시간
- Parameter: $\lambda$ (발생률)

**PDF**:
$$f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$

**기댓값**: $E[X] = \frac{1}{\lambda}$

**분산**: $\text{Var}(X) = \frac{1}{\lambda^2}$

**무기억성**: $P(X > s + t | X > s) = P(X > t)$

In [None]:
# 예제 2-3: 지수 분포

lambdas = [0.5, 1, 2]
x = np.linspace(0, 6, 1000)

plt.figure(figsize=(12, 6))

for lam in lambdas:
    pdf = stats.expon.pdf(x, scale=1/lam)
    mean = 1 / lam
    plt.plot(x, pdf, linewidth=2, label=f'λ={lam}, E[X]={mean:.1f}')
    plt.axvline(mean, linestyle='--', alpha=0.5)

plt.xlabel('x (시간)')
plt.ylabel('f(x)')
plt.title('Exponential Distribution for Different λ')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# 무기억성 검증
lam = 1
s, t = 2, 3

# P(X > s+t | X > s)
p_cond = (1 - stats.expon.cdf(s + t, scale=1/lam)) / (1 - stats.expon.cdf(s, scale=1/lam))

# P(X > t)
p_uncond = 1 - stats.expon.cdf(t, scale=1/lam)

print(f"\n=== 무기억성 검증 ===")
print(f"P(X > {s+t} | X > {s}) = {p_cond:.4f}")
print(f"P(X > {t}) = {p_uncond:.4f}")
print(f"같은가? {np.isclose(p_cond, p_uncond)}")

## 3. 연습문제

### 문제 1: 이항 분포 응용

시험 문제 20문제, 각 문제 정답 확률 0.8.

1. 정확히 16문제 맞출 확률?
2. 15문제 이상 맞출 확률?
3. 평균 몇 문제 맞출까?
4. 표준편차는?

In [None]:
# 문제 1 풀이

n = 20  # 문제 수
p = 0.8  # 정답 확률

print("=== 문제 1 ===")

# 1. P(X = 16)
prob_16 = stats.binom.pmf(16, n, p)
print(f"1. P(X = 16) = {prob_16:.4f}")

# 2. P(X ≥ 15)
prob_15_or_more = 1 - stats.binom.cdf(14, n, p)
print(f"2. P(X ≥ 15) = {prob_15_or_more:.4f}")

# 3. E[X]
mean = n * p
print(f"3. E[X] = np = {mean}")

# 4. Std (표준편차)
var = n * p * (1 - p)
std = np.sqrt(var)
print(f"4. Std(X) = √(np(1-p)) = {std:.4f}")

# 시각화
k = np.arange(0, n+1)
pmf = stats.binom.pmf(k, n, p)

plt.figure(figsize=(10, 6))
plt.bar(k, pmf, alpha=0.7, color='skyblue', edgecolor='black')
plt.axvline(mean, color='r', linestyle='--', linewidth=2, label=f'Mean = {mean}')
plt.axvline(16, color='g', linestyle='--', linewidth=2, label='X = 16')
plt.xlabel('X (정답 개수)')
plt.ylabel('P(X = k)')
plt.title(f'Binomial(n={n}, p={p})')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

### 문제 2: Poisson 분포 응용

웹사이트에 시간당 평균 5명이 방문한다고 알려져 있습니다.

1. 1시간에 3명 방문할 확률?
2. 1시간에 10명 이상 방문할 확률?
3. 2시간에 8명 방문할 확률? (힌트: λ × 시간)

In [None]:
# 문제 2 풀이

lam = 5  # 시간당 평균 방문자

print("=== 문제 2 ===")

# 1. P(X = 3)
prob_3 = stats.poisson.pmf(3, lam)
print(f"1. P(X = 3) = {prob_3:.4f}")

# 2. P(X ≥ 10)
prob_10_or_more = 1 - stats.poisson.cdf(9, lam)
print(f"2. P(X ≥ 10) = {prob_10_or_more:.4f}")

# 3. 2시간에 8명
lam_2hrs = lam * 2  # λ = 10 (2시간)
prob_8_in_2hrs = stats.poisson.pmf(8, lam_2hrs)
print(f"3. P(X = 8 in 2hrs) = {prob_8_in_2hrs:.4f}")
print(f"   (λ = {lam} × 2 = {lam_2hrs})")

### 문제 3: 정규 분포 응용

학생들의 시험 점수가 평균 70, 표준편차 10인 정규분포를 따른다.

1. Z-score: 85점의 z-score?
2. 80점 이상 받을 확률?
3. 60-80점 사이일 확률?
4. 상위 10%의 최소 점수?

In [None]:
# 문제 3 풀이

mu = 70
sigma = 10

print("=== 문제 3: N(70, 10²) ===")

# 1. Z-score of 85
x = 85
z = (x - mu) / sigma
print(f"1. Z-score of {x}: z = (x-μ)/σ = {z:.2f}")

# 2. P(X ≥ 80)
prob_80_or_more = 1 - stats.norm.cdf(80, mu, sigma)
print(f"2. P(X ≥ 80) = {prob_80_or_more:.4f}")

# 3. P(60 ≤ X ≤ 80)
prob_60_to_80 = stats.norm.cdf(80, mu, sigma) - stats.norm.cdf(60, mu, sigma)
print(f"3. P(60 ≤ X ≤ 80) = {prob_60_to_80:.4f}")

# 4. 상위 10% 최소 점수 (90th percentile)
top_10_percent = stats.norm.ppf(0.9, mu, sigma)
print(f"4. 상위 10% 최소 점수 = {top_10_percent:.2f}점")

# 시각화
x_range = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)
pdf = stats.norm.pdf(x_range, mu, sigma)

plt.figure(figsize=(12, 6))
plt.plot(x_range, pdf, 'b-', linewidth=2)

# 60-80 구간 색칠
x_fill = x_range[(x_range >= 60) & (x_range <= 80)]
y_fill = stats.norm.pdf(x_fill, mu, sigma)
plt.fill_between(x_fill, y_fill, alpha=0.3, color='green', label='60-80')

# 상위 10%
x_top10 = x_range[x_range >= top_10_percent]
y_top10 = stats.norm.pdf(x_top10, mu, sigma)
plt.fill_between(x_top10, y_top10, alpha=0.3, color='red', label='상위 10%')

plt.axvline(mu, color='k', linestyle='--', label=f'Mean = {mu}')
plt.xlabel('점수')
plt.ylabel('Density')
plt.title(f'N({mu}, {sigma}²)')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

## 4. 요약 정리

### 이산형 분포

| 분포 | PMF | E[X] | Var(X) | 응용 |
|------|-----|------|--------|------|
| Bernoulli(p) | $p^x(1-p)^{1-x}$ | $p$ | $p(1-p)$ | 성공/실패 |
| Binomial(n,p) | $\binom{n}{k}p^k(1-p)^{n-k}$ | $np$ | $np(1-p)$ | 성공 횟수 |
| Poisson(λ) | $\frac{\lambda^k e^{-\lambda}}{k!}$ | $\lambda$ | $\lambda$ | 발생 횟수 |
| Geometric(p) | $(1-p)^{k-1}p$ | $1/p$ | $(1-p)/p^2$ | 첫 성공 |

### 연속형 분포

| 분포 | PDF | E[X] | Var(X) | 응용 |
|------|-----|------|--------|------|
| Uniform(a,b) | $\frac{1}{b-a}$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ | 균등 |
| Normal(μ,σ²) | $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ | $\mu$ | $\sigma^2$ | 자연 현상 |
| Exponential(λ) | $\lambda e^{-\lambda x}$ | $1/\lambda$ | $1/\lambda^2$ | 대기 시간 |

### 핵심 개념

- **이산형**: PMF, $\sum p(x) = 1$, $P(X = x)$
- **연속형**: PDF, $\int f(x)dx = 1$, $P(X = x) = 0$
- **정규분포**: 가장 중요! 중심극한정리
- **Poisson ≈ Binomial**: $n$ 크고 $p$ 작을 때