##  Python 기반 기초 통계 🐍

## ☀️ DAY 1: Python을 활용한 핵심 통계 개념 정복
---

## 🎲 M2. 확률·분포 심층 탐구 및 활용

### 🎯 **학습 목표**:

* 데이터 분석에서 확률분포를 이해하는 것의 중요성을 인지합니다.
* 주요 이산 및 연속 확률분포(정규분포, t-분포, 카이제곱분포, 감마분포, 지수분포, 로그정규분포, 포아송분포, 이항분포, 베타분포, 파레토분포 등)의 특징과 실제 활용 사례를 이해합니다.
* 확률질량/밀도함수(PMF/PDF), 누적분포함수(CDF), 생존함수(SF)의 개념과 차이점을 명확히 파악합니다.
* Python을 활용하여 데이터의 분포를 시각화하고, 특정 분포에 대한 적합성을 검정하는 방법(시각적 검토 및 통계적 검정)을 익힙니다.
---

### 🌟 **왜 데이터 분석에서 확률분포를 알아야 할까요?**

확률분포는 데이터 분석의 핵심적인 도구입니다. 우리가 확률분포를 알아야 하는 이유는 다음과 같습니다:
1. **데이터의 기본적인 모습 이해하기**
    - 데이터가 어떤 모양인지, 얼마나 들쭉날쭉한지, 평균이나 중앙값이 어디쯤인지 쉽게 알 수 있습니다.
    - 예시: 만약 고객의 구매 금액이 로그정규분포를 따른다면, 평균보다는 중앙값이나 분위수를 기준으로 전략을 세우는 것이 더 좋습니다.

2. **알맞은 통계 분석 방법 고르기**
    - 많은 통계 분석 방법은 데이터가 어떤 분포를 따른다고 가정합니다.
    - 예시: 선형 회귀 분석에서는 실제값과 예측값의 차이(잔차)가 정규분포를 따른다고 생각합니다.
    - 데이터의 분포를 알아야 분석 방법을 제대로 고르고, 그 방법이 맞는지도 확인할 수 있습니다.

3. **가설 검정과 신뢰구간 계산**
    - 데이터가 어떤 분포를 따르는지 알면, 미래에 값이 어느 범위에 있을지 예측하거나, 어떤 일이 일어날 확률을 계산할 수 있습니다.
    - 예시: 하루 동안 웹사이트 에러가 포아송 분포를 따른다면, 내일 에러가 몇 번 날지 미리 예측할 수 있습니다.

4. **가상 데이터 만들기와 시뮬레이션**
    - 특정 분포를 따르는 가짜 데이터를 만들어서 여러 상황을 미리 실험해볼 수 있습니다.
    - 예시: 시스템이 얼마나 잘 작동하는지 테스트하거나, 여러 선택지 중 어떤 결과가 나올지 미리 시뮬레이션할 때 사용합니다.

5. **이상치(특이한 값) 찾기**
    - 데이터가 어떤 분포를 따른다고 생각할 때, 그 분포에서 많이 벗어난 값은 이상치로 볼 수 있습니다.
    - 예시: 정규분포에서 평균에서 3배 이상 멀리 떨어진 값은 이상치로 판단하는 경우가 많습니다.

결국, 확률분포를 이해하면 데이터를 더 쉽게 분석하고, 더 정확한 결론을 내릴 수 있으며, 더 좋은 의사결정을 할 수 있습니다.

---


### 💡 **개념 (Concept)**

1. **확률 변수 (Random Variable) 와 확률 분포 (Probability Distribution)**:
    * **확률 변수**: 무작위 실험의 결과에 의해 값이 결정되는 변수입니다.
        * **이산형 확률 변수 (Discrete Random Variable)**: 셀 수 있는 값(주로 정수)을 가집니다. (예: 주사위 눈, 하루 동안의 고객 방문 수, 이메일의 스팸 여부(0 또는 1))
        * **연속형 확률 변수 (Continuous Random Variable)**: 특정 범위 내의 모든 실수 값을 가질 수 있습니다. (예: 키, 몸무게, 온도, 시간, 주가 수익률)
    * **확률 분포**: 확률 변수가 특정 값 또는 값의 범위에 속할 확률을 나타내는 함수 또는 규칙입니다.
  
  
2. **주요 연속 확률 분포**

<style>
hl {
    color: #1500FFFF;
    font-weight: bold;
    background: none;
}
th:first-child, td:first-child {
    min-width: 80px;
    max-width: 80px;
    width: 80px;
    text-align: center;
}
/* 표 헤더와 5번째 행까지 배경 흰색, 글자 검정색 */
table, th, td {
    color: #111 !important;
}
thead tr, thead th {
    background: #F1EDAFFF !important;
    color: #111 !important;
}
tbody tr:nth-child(-n+4) {
    background: #F1EDAFFF !important;
    color: #111 !important;
}
/* 6행부터 배경색을 옅은 그레이(#f5f5f5)로 지정 */
tbody tr:nth-child(n+5) {
    background: #f5f5f5 !important;
    color: #111 !important;
}
</style>

| 분포 제목 | 분포 정의 | 주요 특징 | 활용 |
|---|---|---|---|
| 정규 분포 | $N(\mu, \sigma^2)$ | 자연 현상 및 사회 현상에서 가장 흔하게 발견되는 <hl>종 모양의 대칭적인 분포</hl>임.<br>평균($\mu$)과 표준편차($\sigma$) 두 모수에 의해 모양이 결정됨.<br>평균 = 중앙값 = 최빈값임.<br><hl>표준 정규 분포</hl>는 $Z \sim N(0,1)$로, <hl>평균이 0이고 표준편차가 1</hl>인 특별한 정규 분포임.<br>Z-점수 변환 $Z = (X-\mu)/\sigma$를 통해 표준화함.<br> | 많은 통계적 방법론의 기초 가정임.<br>금융 자산의 수익률 모델링(근사적으로) 및 측정 오차 등에서 활용함.<br> |
| t-분포 | 정규 분포와 유사한 종 모양이지만, 꼬리가 더 두꺼움(fat tails). | <hl>극단적인 값이 나타날 확률이 정규분포보다 높음</hl>.<br><hl>모집단의 분산($\sigma^2$)을 알지 못하고 표본 크기(n)가 작을 때, 표본 평균($\bar{x}$)을 이용하여 모평균($\mu$)을 추정하거나 검정</hl>할 때 사용함.<br>자유도(df)에 따라 모양이 변하며, 자유도가 커질수록 표준 정규 분포에 근사함(df = n-1).<br> | 소표본에서의 평균 검정 및 추정,<br>금융 데이터 모델링(정규분포보다 꼬리가 두꺼운 현상 반영)에 활용함.<br> |
| 카이제곱 분포 | 여러 개(k개)의 서로 <hl>독립적인 표준정규분포를 따르는 확률변수들을 각각 제곱한 다음 모두 더해서 얻어지는 분포</hl>임.<br>$\chi^2(k)$로 표기하며, k는 자유도임.<br> | 오른쪽으로 긴 꼬리를 가지는 비대칭 분포임.<br>자유도가 커질수록 대칭성에 가까워짐.<br> | <hl>분산 추정 및 검정,<br>적합도 검정,<br>독립성 검정 등에 활용함.</hl><br> |
| 지수 분포 | 어떤 사건이 처음 발생하기까지 걸리는 대기 시간,<br>또는 포아송 과정에서 연속된 사건들 사이의 시간에 대한 분포임.<br> | 단일 모수 $\lambda$ 또는 $\beta = 1/\lambda$를 가짐.<br><hl>$\lambda$는 단위 시간당 평균 사건 발생 횟수임.</hl><br>과거에 얼마나 기다렸는지가 미래에 기다릴 시간에 영향을 주지 않음.<br> | 부품의 수명 예측,<br>고객이 서비스 받기까지 기다리는 시간,<br>방사성 붕괴 시간 모델링 등에 활용함.<br> |
| 감마 분포 | <hl>여러 독립적인 지수 분포 변수들의 합</hl>으로 볼 수 있으며,<br>k번째 사건이 발생하기까지 걸리는 총 대기 시간을 모델링함.<br> | 형태 모수 $\alpha$ (또는 $k$)와 비율 모수 $\beta$ (또는 척도 모수 $\theta = 1/\beta$)를 가짐.<br>$\alpha=1$일 때 지수 분포가 됨.<br>$\alpha$가 커질수록 분포는 대칭적인 모양에 가까워짐.<br> | 대기 시간,<br>고장 시간,<br>강우량,<br>보험 청구액 모델링 등에 활용함.<br>지수 분포보다 더 유연한 형태를 가짐.<br> |
| 로그-정규 분포| 확률 변수 $X$에 로그를 취한 $\ln(X)$가 정규분포를 따를 때, $X$는 로그-정규 분포를 따름.<br> | 항상 양수 값을 가지며,<br>오른쪽으로 긴 꼬리를 가진 왜곡된 분포임.<br> | 주가,<br>소득,<br>특정 생물 종의 크기 등 양의 값을 가지며 변동성이 큰 데이터 모델링에 활용함.<br> |
| 베타 분포  | 0과 1 사이의 값을 가지는 연속 확률 변수를 모델링하는 데 사용함.<br> | 두 개의 양의 형태 모수 $\alpha$와 $\beta$를 가짐.<br>이 모수들의 값에 따라 매우 다양한 형태의 분포를 나타낼 수 있음(U자형, 종형, 직선형 등).<br> | 성공 확률,<br>비율,<br>백분율 등의 분포를 모델링함.<br>베이즈 통계에서 사전 확률 분포로 자주 사용됨(예: 동전 던지기의 앞면이 나올 확률의 분포).<br> |
| 파레토 분포 | <hl>"소수의 원인이 다수의 결과를 만든다"는 파레토 법칙(80-20 법칙)</hl>을 설명하는 데 사용되는 멱법칙 분포의 한 예임.<br> | 오른쪽으로 매우 긴 꼬리(heavy tail)를 가지며,<br>극단적인 값들이 나타날 확률이 상대적으로 높음.<br>형태 모수 $\alpha$(꼬리 지수)와 최소값 모수 $x_m$을 가짐.<br> | 소득 및 부의 분포,<br>도시 인구 규모,<br>인터넷 트래픽,<br>주식 시장의 큰 변동,<br>지진의 강도 등에 활용함.<br> |
| 혼합 모델 | 여러 개의 단순한 <hl>확률 분포(구성 요소)가 가중 결합</hl>되어 만들어지는 더 복잡한 분포임.<br> | 데이터가 서로 다른 여러 하위 그룹에서 비롯된 것으로 보일 때 유용함.<br>가우시안 혼합 모델(GMM)은 여러 정규 분포를 결합하여 다봉 형태의 데이터를 모델링함.<br> | 군집 분석,<br>밀도 추정,<br>이상 탐지 등에 활용함.<br> |

In [17]:
import numpy as np
import plotly.graph_objs as go
from plotly.subplots import make_subplots
from scipy.stats import norm, t, chi2, expon, gamma, lognorm, beta, pareto

# 분포별 x축 범위 및 파라미터 설정
x_norm = np.linspace(-4, 4, 400)
x_t = np.linspace(-5, 5, 400)
x_chi2 = np.linspace(0, 20, 400)
x_expon = np.linspace(0, 8, 400)
x_gamma = np.linspace(0, 20, 400)
x_lognorm = np.linspace(0.01, 6, 400)
x_beta = np.linspace(0, 1, 400)
x_pareto = np.linspace(1, 8, 400)

# 혼합 정규분포 (GMM) 샘플
x_mix = np.linspace(-4, 8, 400)
mix_pdf = 0.6 * norm.pdf(x_mix, loc=0, scale=1) + 0.4 * norm.pdf(x_mix, loc=4, scale=0.8)

fig = make_subplots(
    rows=3, cols=3,
    subplot_titles=[
        "정규분포", "t-분포", "카이제곱분포",
        "지수분포", "감마분포", "로그정규분포",
        "베타분포", "파레토분포", "혼합 정규분포"
    ]
)

# 1. 정규분포
fig.add_trace(
    go.Scatter(x=x_norm, y=norm.pdf(x_norm, loc=0, scale=1), name="N(0,1)", showlegend=False),
    row=1, col=1
)

# 2. t-분포 (df=5)
fig.add_trace(
    go.Scatter(x=x_t, y=t.pdf(x_t, df=5), name="t(df=5)", showlegend=False),
    row=1, col=2
)

# 3. 카이제곱분포 (df=4)
fig.add_trace(
    go.Scatter(x=x_chi2, y=chi2.pdf(x_chi2, df=4), name="chi2(df=4)", showlegend=False),
    row=1, col=3
)

# 4. 지수분포 (lambda=1)
fig.add_trace(
    go.Scatter(x=x_expon, y=expon.pdf(x_expon, scale=1), name="expon(λ=1)", showlegend=False),
    row=2, col=1
)

# 5. 감마분포 (a=2, scale=2)
fig.add_trace(
    go.Scatter(x=x_gamma, y=gamma.pdf(x_gamma, a=2, scale=2), name="gamma(a=2, scale=2)", showlegend=False),
    row=2, col=2
)

# 6. 로그정규분포 (s=0.6, scale=1)
fig.add_trace(
    go.Scatter(x=x_lognorm, y=lognorm.pdf(x_lognorm, s=0.6, scale=np.exp(0)), name="lognorm(s=0.6)", showlegend=False),
    row=2, col=3
)

# 7. 베타분포 (a=2, b=5)
fig.add_trace(
    go.Scatter(x=x_beta, y=beta.pdf(x_beta, a=2, b=5), name="beta(a=2, b=5)", showlegend=False),
    row=3, col=1
)

# 8. 파레토분포 (b=2, scale=1)
fig.add_trace(
    go.Scatter(x=x_pareto, y=pareto.pdf(x_pareto, b=2, scale=1), name="pareto(α=2)", showlegend=False),
    row=3, col=2
)

# 9. 혼합 정규분포
fig.add_trace(
    go.Scatter(x=x_mix, y=mix_pdf, name="GMM", showlegend=False),
    row=3, col=3
)

fig.update_layout(
    height=900, width=1100,
    title_text="주요 연속 확률 분포의 PDF",
    template="plotly_white"
)
fig.update_xaxes(title_text="x", row=3, col=1)
fig.update_xaxes(title_text="x", row=3, col=2)
fig.update_xaxes(title_text="x", row=3, col=3)
fig.update_yaxes(title_text="PDF", row=1, col=1)
fig.show()


<style>
    table tr th{
        background: #F1EDAFFF !important;
        color: #111 !important;
    }
    table tr td {
        background: #FFFFFFFF !important;
        color: #111 !important;
    }
</style>
3. **주요 이산 확률 분포**
   
    | 특징         | 이항분포                                                                 | 포아송분포                                         |
    |--------------|------------------------------------------------------------------------|----------------------------------------------------|
    | 정의         | 서로 독립적인 베르누이 시행(성공/실패 두 가지 결과만 가짐)을 $n$번 반복했을 때 나타나는 성공 횟수 $k$의 확률 분포                        | 단위 시간, 단위 공간, 또는 단위 부피 등 특정 구간 내에서 어떤 사건이 발생하는 평균 횟수 $\lambda$를 알 때, 실제 그 사건이 $k$번 발생할 확률 분포             |
    | 모수         | 시행 횟수 n, 성공 확률 p                                                | 평균 발생 횟수 λ                                   |
    | 확률 변수    | 0, 1, ..., n (정수)                                                     | 0, 1, 2, ... (정수)                                |
    | 평균         | np                                                                     | λ                                                  |
    | 분산         | np(1-p)                                                                | λ                                                  |
    | 적용 예시    | 제품 불량품 수, 여론조사 특정 후보 지지자 수                             | 단위 시간 내 교차로 차량 수, 서버 요청 수           |

In [18]:
from scipy.stats import binom, poisson
# 이항분포 (Binomial Distribution) 시각화
n, p = 10, 0.5
x_binom = np.arange(0, n+1)
y_binom = binom.pmf(x_binom, n, p)

binom_trace = go.Bar(x=x_binom, y=y_binom, name="Binomial(n=10, p=0.5)")

# 포아송분포 (Poisson Distribution) 시각화
lam = 3
x_pois = np.arange(0, 15)
y_pois = poisson.pmf(x_pois, lam)

poisson_trace = go.Bar(x=x_pois, y=y_pois, name="Poisson(λ=3)")

fig = go.Figure()
fig.add_trace(binom_trace)
fig.add_trace(poisson_trace)

fig.update_traces(opacity=0.7)
fig.update_layout(
    barmode='group',
    title="이산 확률 분포 (이항분포, 포아송분포) PMF",
    xaxis_title="k",
    yaxis_title="PMF",
    template="plotly_white"
)
fig.show()


<style>
    table tr th{
        background: #F1EDAFFF !important;
        color: #111 !important;
    }
    table tr td {
        background: #FFFFFFFF !important;
        color: #111 !important;
    }
</style>
| 함수명 | 영문명 (한글명) | 정의 및 설명 | 수식/특징 | 비고 |
|--------|----------------|-------------|-----------|------|
| PMF | Probability Mass Function<br>(확률 질량 함수) | 이산 확률 변수 $X$에 대해, 변수가 특정 값 $x_i$를 가질 확률 $P(X=x_i)$을 나타냅니다. | - 모든 가능한 $x_i$에 대한 PMF 값의 합은 1입니다: <br> $\sum_i P(X=x_i) = 1$ | 이산 확률 변수에만 적용 |
| PDF | Probability Density Function<br>(확률 밀도 함수) | 연속 확률 변수 $X$에 대해, 변수가 특정 구간 $[a, b]$에 속할 확률 $P(a \le X \le b)$는 PDF $f(x)$를 해당 구간에서 적분한 값($\int_a^b f(x)dx$)으로 계산됩니다. <br> PDF 자체는 특정 지점에서의 확률이 아니라, 해당 지점에서의 확률의 밀도(상대적 가능성)를 나타냅니다. <br> 연속 확률 변수에서 특정 한 지점에서의 확률은 0입니다 ($P(X=x)=0$). <br> PDF 곡선 아래 전체 면적은 1입니다. | - $P(a \le X \le b) = \int_a^b f(x)dx$ <br> - $\int_{-\infty}^{\infty} f(x)dx = 1$ <br> - $P(X=x)=0$ | 연속 확률 변수에만 적용 |
| CDF | Cumulative Distribution Function<br>(누적 분포 함수) | 확률 변수 $X$가 특정 값 $x$보다 작거나 같을 확률을 나타냅니다: $F(x)=P(X \le x)$.<br> 이산 변수의 경우 $F(x) = \sum_{x_i \le x} P(X=x_i)$ 이고, 연속 변수의 경우 PDF를 $-\infty$부터 $x$까지 적분한 값입니다.<br> 0에서 시작하여 1로 끝나는 비감소 함수입니다. | - 이산: $F(x) = \sum_{x_i \le x} P(X=x_i)$ <br><br>  - 연속: $F(x) = \int_{-\infty}^x f(t)dt$ <br><br>  - $F(x)$는 비감소 함수, $F(-\infty)=0$, $F(\infty)=1$ | 모든 확률 변수에 적용 |
| SF | Survival Function<br>(생존 함수) | 확률 변수 $X$가 특정 값 $x$보다 클 확률을 나타냅니다: $S(x)=P(X > x)$.<br><br> $S(x)=1−CDF(x)$.<br> 생존 분석, 신뢰성 공학 등에서 주로 사용됩니다. | - $S(x) = 1 - F(x)$ <br> - $S(x) = P(X > x)$ | 모든 확률 변수에 적용 |


In [9]:
# 이산형 확률 변수: 이항분포 PMF, CDF, SF
n, p = 10, 0.5
x_discrete = np.arange(0, n+1)
pmf_discrete = binom.pmf(x_discrete, n, p)
cdf_discrete = binom.cdf(x_discrete, n, p)
sf_discrete = binom.sf(x_discrete, n, p)

fig_discrete = go.Figure()
fig_discrete.add_trace(go.Bar(x=x_discrete, y=pmf_discrete, name="PMF", marker_color='royalblue'))
fig_discrete.add_trace(go.Scatter(x=x_discrete, y=cdf_discrete, mode='lines+markers', name="CDF", line=dict(color='green')))
fig_discrete.add_trace(go.Scatter(x=x_discrete, y=sf_discrete, mode='lines+markers', name="SF", line=dict(color='red')))
fig_discrete.update_layout(
    title="이항분포 (n=10, p=0.5)의 PMF, CDF, SF",
    xaxis_title="k",
    yaxis_title="확률/누적확률",
    template="plotly_white"
)
fig_discrete.show()


In [10]:
# 연속형 확률 변수: 정규분포 PDF, CDF, SF
mu, sigma = 0, 1
x_cont = np.linspace(-4, 4, 200)
pdf_cont = norm.pdf(x_cont, mu, sigma)
cdf_cont = norm.cdf(x_cont, mu, sigma)
sf_cont = norm.sf(x_cont, mu, sigma)

fig_cont = go.Figure()
fig_cont.add_trace(go.Scatter(x=x_cont, y=pdf_cont, mode='lines', name="PDF", line=dict(color='royalblue')))
fig_cont.add_trace(go.Scatter(x=x_cont, y=cdf_cont, mode='lines', name="CDF", line=dict(color='green')))
fig_cont.add_trace(go.Scatter(x=x_cont, y=sf_cont, mode='lines', name="SF", line=dict(color='red')))
fig_cont.update_layout(
    title="정규분포 (μ=0, σ=1)의 PDF, CDF, SF",
    xaxis_title="x",
    yaxis_title="밀도/누적확률",
    template="plotly_white"
)
fig_cont.show()


5.  **분포의 특성 및 적합도 검정**
    * **왜도 (Skewness)**: 분포의 비대칭 정도를 나타내는 척도입니다.
        * 왜도 = 0: 대칭 (예: 정규분포)
        * 왜도 > 0: 오른쪽 꼬리가 김 (양의 왜도, 예: 로그정규분포, 카이제곱분포)
        * 왜도 < 0: 왼쪽 꼬리가 김 (음의 왜도)
    * **첨도 (Kurtosis)**: 분포의 꼬리가 얼마나 두꺼운지 또는 중심이 얼마나 뾰족한지를 나타내는 척도입니다. 정규분포의 첨도(초과첨도 기준 0)와 비교합니다.
        * 첨도 > 0 (Leptokurtic): 정규분포보다 꼬리가 두껍고 중심이 뾰족함 (예: t-분포)
        * 첨도 < 0 (Platykurtic): 정규분포보다 꼬리가 얇고 중심이 평평함.
    * **정규성 (Normality) 검정**: 데이터가 정규 분포를 따르는지 확인하는 과정입니다. 많은 통계 분석 기법(예: t-검정, ANOVA)들이 데이터의 정규성 가정을 필요로 합니다.
        * **시각적 방법**:
            * 히스토그램/KDE Plot: 분포의 모양이 종 모양인지 확인.
            * Q-Q Plot (Quantile-Quantile Plot): 데이터의 분위수와 이론적 정규분포의 분위수를 산점도로 그려 비교. 점들이 직선에 가까울수록 정규성을 만족합니다.
        * **통계적 검정 방법 (가설검정 기반)**:
            * 귀무가설 ($H_0$): 데이터는 특정 분포(예: 정규 분포)를 따른다.
            * 대립가설 ($H_1$): 데이터는 특정 분포를 따르지 않는다.
            * **Shapiro-Wilk Test**: 표본 크기가 비교적 작을 때 (보통 n < 50 또는 n < 2000) 유용한 정규성 검정 방법입니다. 검정력이 좋다고 알려져 있습니다.
            * **Kolmogorov-Smirnov Test (KS-test)**: 데이터가 특정 연속 분포(예: 정규분포, 지수분포, 감마분포 등)를 따르는지 검정합니다. 분포의 모수를 데이터로부터 추정하여 사용하면 검정력이 낮아질 수 있어 주의해야 합니다 (Lilliefors test는 이를 보완).
            * **D'Agostino and Pearson's Test (normaltest)**: 데이터의 왜도와 첨도를 함께 고려하여 정규성을 검정합니다.
            * **Anderson-Darling Test**: 특정 분포에 대한 적합도를 검정하며, 특히 분포의 꼬리 부분에 민감하여 Q-Q plot과 함께 유용하게 사용됩니다.
        * **유의수준 ($\alpha$)**: 보통 0.05 (5%)를 사용하며, p-value가 유의수준보다 작으면 귀무가설을 기각합니다.


## 개념 요약 슬라이드

In [None]:
import os
os.sys.path.append(os.path.dirname(os.path.abspath(os.getcwd())))
from lib.slide import show_html_slides

In [3]:
slides_data = [
    {
        'title': '1. 확률 변수란?',
        'items': [
            '확률 변수: 무작위 실험의 결과에 의해 값이 결정되는 변수',
            '종류: <b>이산형</b> (정수 값, 예: 주사위 눈, 방문 수)<br><b>연속형</b> (실수 값, 예: 키, 온도, 시간)'
        ]
    },
    {
        'title': '2. 확률 분포란?',
        'items': [
            '확률 분포: 확률 변수가 특정 값 또는 범위에 속할 확률을 나타내는 함수',
            '이산형: <b>확률 질량 함수(PMF)</b> 사용<br>연속형: <b>확률 밀도 함수(PDF)</b> 사용'
        ]
    },
    {
        'title': '3. 주요 이산 확률 분포',
        'items': [
            '이항 분포: 성공/실패 등 두 가지 결과, n번 시행 중 성공 횟수',
            '포아송 분포: 단위 시간/공간 내 사건 발생 횟수 (예: 시간당 콜센터 전화 수)',
            '베르누이 분포: 한 번의 시행에서 성공(1) 또는 실패(0)'
        ]
    },
    {
        'title': '4. 주요 연속 확률 분포',
        'items': [
            '정규 분포: $N(\\mu, \\sigma^2)$, 종 모양의 대칭 분포, 평균=중앙값=최빈값',
            '표준 정규 분포: $Z \\sim N(0, 1)$, $Z = \\frac{X-\\mu}{\\sigma}$로 표준화',
            't-분포: 정규분포와 유사, 꼬리가 두꺼움, 표본 크기 작을 때 사용',
            '카이제곱 분포: $\\chi^2(k)$, k개 독립 표준정규변수 제곱합, 오른쪽 꼬리 길음',
            '감마/지수/로그정규/베타/파레토 분포 등 다양한 연속 분포 존재'
        ]
    },
    {
        'title': '5. 확률 분포 함수의 종류',
        'items': [
            '<b>PMF (확률 질량 함수)</b>: 이산 확률 변수 $X$에 대해 $P(X=x_i)$',
            '<b>PDF (확률 밀도 함수)</b>: 연속 확률 변수 $X$에 대해 $P(a \\le X \\le b) = \\int_a^b f(x)dx$<br>특정 지점 확률=0, 전체 면적=1',
            '<b>CDF (누적 분포 함수)</b>: $F(x) = P(X \\le x)$, 0에서 1까지 증가',
            '<b>SF (생존 함수)</b>: $S(x) = P(X > x) = 1 - F(x)$, 생존 분석 등에서 사용'
        ]
    },
    {
        'title': '6. 분포의 특성: 왜도와 첨도',
        'items': [
            '왜도(Skewness): 분포의 비대칭 정도<br>0=대칭, >0=오른쪽 꼬리, <0=왼쪽 꼬리',
            '첨도(Kurtosis): 꼬리 두께/중심 뾰족함<br>0=정규분포, >0=꼬리 두꺼움, <0=꼬리 얇음'
        ]
    },
    {
        'title': '7. 정규성(Normality) 검정의 필요성',
        'items': [
            '많은 통계 분석 기법(예: t-검정, ANOVA)은 데이터의 정규성 가정을 필요로 함',
            '정규성 검정: 데이터가 정규 분포를 따르는지 확인하는 과정'
        ]
    },
    {
        'title': '8. 정규성 검정 방법 (1) - 시각적 방법',
        'items': [
            '히스토그램/커널밀도(KDE) 플롯: 종 모양 여부 확인',
            'Q-Q Plot: 데이터 분위수 vs. 이론적 정규분포 분위수 산점도<br>점들이 직선에 가까울수록 정규성 만족'
        ]
    },
    {
        'title': '9. 정규성 검정 방법 (2) - 통계적 검정',
        'items': [
            '귀무가설($H_0$): 데이터는 정규분포를 따른다',
            '대립가설($H_1$): 데이터는 정규분포를 따르지 않는다',
            '<ul><li>Shapiro-Wilk: 소표본(n<50~2000)에 적합, 검정력 우수</li>' +
            '<li>Kolmogorov-Smirnov: 분포 일치 검정, 모수 추정시 검정력 약화</li>' +
            '<li>D\'Agostino-Pearson: 왜도+첨도 동시 검정</li>' +
            '<li>Anderson-Darling: 꼬리 부분에 민감, Q-Q plot과 함께 사용</li></ul>',
            '유의수준($\\alpha$): 보통 0.05, p-value < $\\alpha$면 귀무가설 기각'
        ]
    },
    {
        'title': '10. 확률분포 이해의 중요성',
        'items': [
            '데이터의 구조/특성 파악, 적절한 통계 모델 선택',
            '가설 검정, 신뢰구간 추정, 예측, 시뮬레이션, 이상치 탐지 등 다양한 분석에 필수'
        ]
    }
]

show_html_slides(slides_data)


💻 **예시 코드 (Example Code)**

In [None]:
!pip install yfinance

In [21]:
import numpy as np
import pandas as pd
from scipy import stats
import yfinance as yf # S&P 500 데이터 수집용
import plotly.graph_objs as go
import plotly.subplots as sp
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 1. 주요 분포별 개별 시각화

# S&P 500 데이터 다운로드 및 수익률 계산
sp500 = yf.Ticker("^GSPC")
sp500_data = sp500.history(period="5y")['Close']
sp500_returns = sp500_data.pct_change().dropna() * 100 # % 단위 수익률

# 1.1 S&P 500 수익률: 정규분포 적합 
mu_sp, std_sp = stats.norm.fit(sp500_returns)
x_sp = np.linspace(sp500_returns.min(), sp500_returns.max(), 200)

# 데이터프레임 생성 (수익률)
df_sp = pd.DataFrame({'수익률': sp500_returns})

# 히스토그램 그리기
fig1 = px.histogram(
    df_sp, x='수익률', nbins=50, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightblue'],
    labels={'수익률': '수익률 (%)'}, 
    title="S&P 500 일간 수익률 분포 (정규분포 적합)"
)

# 정규분포 곡선 추가
fig1.add_scatter(
    x=x_sp, y=stats.norm.pdf(x_sp, mu_sp, std_sp),
    mode='lines', name=f'정규분포 적합<br>(μ={mu_sp:.2f}, σ={std_sp:.2f})',
    line=dict(color='red')
)

fig1.update_layout(
    xaxis_title="수익률 (%)",
    yaxis_title="밀도"
)
fig1.show()

In [27]:
sp500_returns

Date
2020-06-04 00:00:00-04:00   -0.336870
2020-06-05 00:00:00-04:00    2.621165
2020-06-08 00:00:00-04:00    1.204158
2020-06-09 00:00:00-04:00   -0.779917
2020-06-10 00:00:00-04:00   -0.531309
                               ...   
2025-05-27 00:00:00-04:00    2.045906
2025-05-28 00:00:00-04:00   -0.557123
2025-05-29 00:00:00-04:00    0.401119
2025-05-30 00:00:00-04:00   -0.008119
2025-06-02 00:00:00-04:00    0.410204
Name: Close, Length: 1255, dtype: float64

In [None]:
# stats.t.fit 함수는 주어진 데이터(여기서는 sp500_returns)에 대해 t-분포의 모수(자유도, 위치, 척도)를 추정(적합)하는 함수입니다.
# "적합한다"는 것은 실제 데이터의 분포가 t-분포라고 가정하고, 그 분포의 모수(자유도 df, 위치 loc, 척도 scale)를 데이터에 가장 잘 맞도록 찾는다는 의미입니다.
# 즉, 데이터가 t-분포를 따른다고 가정할 때, 그 분포의 모수값을 최대우도추정법 등으로 계산해주는 과정입니다.
# 예시:
# df_t, loc_t, scale_t = stats.t.fit(sp500_returns)
# → sp500_returns 데이터에 대해 t-분포의 자유도(df_t), 위치(loc_t), 척도(scale_t)를 추정합니다.


In [29]:
# 1.2 S&P 500 수익률: t-분포 적합 (plotly express로 그리기)
df_t, loc_t, scale_t = stats.t.fit(sp500_returns)
x_sp = np.linspace(sp500_returns.min(), sp500_returns.max(), 200)

# 히스토그램 데이터프레임 생성
df_sp = pd.DataFrame({'수익률': sp500_returns})

# 히스토그램 (density) express로 그리기
fig2 = px.histogram(
    df_sp, x='수익률', nbins=50, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightblue'],
    labels={'수익률': '수익률 (%)'},
    title="S&P 500 일간 수익률 분포 (t-분포 및 정규분포 비교)"
)

# t-분포 곡선 추가
fig2.add_scatter(
    x=x_sp, y=stats.t.pdf(x_sp, df_t, loc_t, scale_t),
    mode='lines', name=f"t-분포 적합<br>(자유도={df_t:.2f})", line=dict(color='green')
)
# 정규분포 곡선 추가
fig2.add_scatter(
    x=x_sp, y=stats.norm.pdf(x_sp, mu_sp, std_sp),
    mode='lines', name="정규분포(비교)", line=dict(color='red', dash='dash')
)

fig2.update_layout(
    xaxis_title="수익률 (%)",
    yaxis_title="밀도"
)
fig2.show()

In [31]:
# 1.3 Old Faithful 대기시간: 감마분포 적합 (plotly express)
# Old Faithful 대기시간(감마 혼합) 가상 데이터 생성
np.random.seed(0)
waiting_times = np.concatenate([
    stats.gamma.rvs(a=5, scale=10, size=150),
    stats.gamma.rvs(a=30, scale=2, size=150)
])

ag, locg, scaleg = stats.gamma.fit(waiting_times, floc=0)
xg = np.linspace(waiting_times.min(), waiting_times.max(), 200)
df_wait = pd.DataFrame({'대기시간': waiting_times})

fig3 = px.histogram(
    df_wait, x='대기시간', nbins=30, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightgreen'],
    labels={'대기시간': '대기시간 (분)'},
    title="Old Faithful 대기시간 분포 (감마분포 적합)"
)
fig3.add_scatter(
    x=xg, y=stats.gamma.pdf(xg, a=ag, loc=locg, scale=scaleg),
    mode='lines', name=f"감마분포 적합<br>(α={ag:.2f}, scale={scaleg:.2f})", line=dict(color='magenta')
)
fig3.update_layout(
    xaxis_title="대기시간 (분)",
    yaxis_title="밀도"
)
fig3.show()

지수분포

In [36]:
# 1.4 지수분포 데이터 생성 및 적합 (plotly)
# 참고: https://medium.com/@snehabajaj108/the-poisson-exponential-distribution-using-python-2e9959fdcbc7

# 평균 두 이벤트 간 시간(초)이 50, 60, 80인 경우의 지수분포 샘플 생성
np.random.seed(42)
exp_data_50 = stats.expon.rvs(scale=50, size=1000)
exp_data_60 = stats.expon.rvs(scale=60, size=1000)
exp_data_80 = stats.expon.rvs(scale=80, size=1000)

# 하나의 데이터셋(예: scale=60)만 적합 및 시각화
exp_data = exp_data_60
loce, scalee = stats.expon.fit(exp_data, floc=0)
xe = np.linspace(exp_data.min(), exp_data.max(), 100)
df_exp = pd.DataFrame({'대기시간': exp_data})

fig4 = px.histogram(
    df_exp, x='대기시간', nbins=30, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightcoral'],
    labels={'대기시간': '대기시간 (초)'},
    title="지수분포 샘플(평균=60초) 및 적합"
)
fig4.add_scatter(
    x=xe, y=stats.expon.pdf(xe, loc=loce, scale=scalee),
    mode='lines', name=f"지수분포 적합<br>(scale={scalee:.2f})", line=dict(color='cyan')
)
fig4.update_layout(
    xaxis_title="대기시간 (초)",
    yaxis_title="밀도"
)
fig4.show()

로그정규분포

In [33]:
# 1.5 항공기 도착 지연시간: 로그정규분포 적합 (plotly express)
# 항공기 도착 지연시간(로그정규) 가상 데이터 생성
airline_delays = stats.lognorm.rvs(s=0.8, loc=0, scale=np.exp(2.5), size=500)
airline_delays = airline_delays[airline_delays > 0]

s_ln, loc_ln, scale_ln = stats.lognorm.fit(airline_delays, floc=0)
x_ln = np.linspace(airline_delays.min(), airline_delays.max(), 200)
df_delay = pd.DataFrame({'지연시간': airline_delays})

fig5 = px.histogram(
    df_delay, x='지연시간', nbins=30, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['gold'],
    labels={'지연시간': '지연시간 (초)'},
    title="항공기 도착 지연시간 분포 (로그정규분포 적합)"
)
fig5.add_scatter(
    x=x_ln, y=stats.lognorm.pdf(x_ln, s=s_ln, loc=loc_ln, scale=scale_ln),
    mode='lines', name=f"로그정규분포 적합<br>(s={s_ln:.2f}, scale={scale_ln:.2f})", line=dict(color='orange')
)
fig5.update_layout(
    xaxis_title="지연시간 (초)",
    yaxis_title="밀도"
)
fig5.show()

포아송분포

In [34]:
# 1.6 자전거 시간당 대여 건수: 포아송분포 적합 (plotly express)
# 자전거 시간당 대여 건수(포아송) 가상 데이터 생성
bike_counts_hourly = stats.poisson.rvs(mu=20, size=24*30)
counts_freq = pd.Series(bike_counts_hourly).value_counts().sort_index()
lambda_poisson = bike_counts_hourly.mean()
x_poisson = np.arange(stats.poisson.ppf(0.001, lambda_poisson), stats.poisson.ppf(0.999, lambda_poisson))
pmf_poisson = stats.poisson.pmf(x_poisson, lambda_poisson)
df_bike = pd.DataFrame({'대여건수': bike_counts_hourly})

fig6 = px.histogram(
    df_bike, x='대여건수', nbins=int(x_poisson.max()-x_poisson.min()+1), histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightblue'],
    labels={'대여건수': '대여 건수'},
    title="자전거 시간당 대여 건수 분포 (포아송분포 적합)"
)
fig6.add_scatter(
    x=x_poisson, y=pmf_poisson,
    mode='lines+markers', name=f"포아송 PMF (λ={lambda_poisson:.2f})", line=dict(color='red')
)
fig6.update_layout(
    xaxis_title="대여 건수",
    yaxis_title="상대 빈도/확률"
)
fig6.show()

이항분포

In [None]:
# 1.7 이항분포 예시 (야구 안타) (plotly express)
# 이항 분포 예시(야구 안타)
n_at_bats = 500
p_success_rate = 0.3
hits = stats.binom.rvs(n=n_at_bats, p=p_success_rate, size=1)[0]

n_trials_binom = 50
p_binom = 0.3
x_binom = np.arange(stats.binom.ppf(0.001, n_trials_binom, p_binom),
                    stats.binom.ppf(0.999, n_trials_binom, p_binom))
pmf_binom = stats.binom.pmf(x_binom, n_trials_binom, p_binom)
sim_hits = stats.binom.rvs(n=n_trials_binom, p=p_binom, size=1000)
df_hits = pd.DataFrame({'안타개수': sim_hits})

fig7 = px.histogram(
    df_hits, x='안타개수', nbins=int(x_binom.max()-x_binom.min()+1), histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightblue'],
    labels={'안타개수': '안타 개수'},
    title="이항분포 예시 (50타석, 타율 0.3)"
)
fig7.add_scatter(
    x=x_binom, y=pmf_binom,
    mode='lines+markers', name=f"이항분포 PMF<br>(n={n_trials_binom}, p={p_binom})", line=dict(color='blue')
)
fig7.update_layout(
    xaxis_title="안타 개수",
    yaxis_title="확률/밀도"
)
fig7.show()


베타분포

In [None]:

# 1.8 베타분포 예시 (plotly express)
a_beta, b_beta = 2, 5
x_beta = np.linspace(stats.beta.ppf(0.001, a_beta, b_beta),
                     stats.beta.ppf(0.999, a_beta, b_beta), 100)
sample_beta = stats.beta.rvs(a_beta, b_beta, size=1000)
df_beta = pd.DataFrame({'샘플값': sample_beta})

fig8 = px.histogram(
    df_beta, x='샘플값', nbins=30, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['orange'],
    labels={'샘플값': '확률값'},
    title="베타분포 예시 (a=2, b=5)"
)
fig8.add_scatter(
    x=x_beta, y=stats.beta.pdf(x_beta, a_beta, b_beta),
    mode='lines', name=f"베타분포 PDF (a={a_beta}, b={b_beta})", line=dict(color='black')
)
fig8.update_layout(
    xaxis_title="확률값",
    yaxis_title="밀도"
)
fig8.show()


파레토분포

In [None]:
# 1.9 파레토분포 예시 (지진 규모) (plotly express)
# 파레토 분포 예시(지진 규모)
earthquake_magnitudes = stats.pareto.rvs(b=2.5, loc=0, scale=1.0, size=1000) + 1.0
earthquake_magnitudes = earthquake_magnitudes[earthquake_magnitudes > 0]
b_par, loc_par, scale_par = stats.pareto.fit(earthquake_magnitudes, floc=0, fscale=earthquake_magnitudes.min())
x_par = np.linspace(earthquake_magnitudes.min(), earthquake_magnitudes.max(), 200)
df_eq = pd.DataFrame({'규모': earthquake_magnitudes})

fig9 = px.histogram(
    df_eq, x='규모', nbins=50, histnorm='probability density',
    opacity=0.7, color_discrete_sequence=['lightgray'],
    labels={'규모': '규모'},
    title="지진 규모 분포 (파레토분포 적합)"
)
fig9.add_scatter(
    x=x_par, y=stats.pareto.pdf(x_par, b=b_par, loc=loc_par, scale=scale_par),
    mode='lines', name=f"파레토분포 적합<br>(b={b_par:.2f}, scale={scale_par:.2f})", line=dict(color='green')
)
fig9.update_layout(
    xaxis_title="규모",
    yaxis_title="밀도"
)
fig9.show()


확률분포함수 익히기

In [41]:
# 2. PDF, CDF, SF 예시 (표준 정규 분포)
x_val = 1.5
mu_norm, std_norm = 0, 1
print(f"PDF, CDF, SF, PPF (표준정규분포, x={x_val})")

PDF, CDF, SF, PPF (표준정규분포, x=1.5)


In [42]:
pdf_val = stats.norm.pdf(x_val, loc=mu_norm, scale=std_norm)
print(f"PDF (확률밀도함수) @ x={x_val}: {pdf_val:.4f} (x={x_val}에서의 확률 밀도)")

PDF (확률밀도함수) @ x=1.5: 0.1295 (x=1.5에서의 확률 밀도)


In [43]:
cdf_val = stats.norm.cdf(x_val, loc=mu_norm, scale=std_norm)
print(f"CDF (누적분포함수) @ x={x_val} (P(X ≤ {x_val})): {cdf_val:.4f} (x={x_val} 이하일 확률)")

CDF (누적분포함수) @ x=1.5 (P(X ≤ 1.5)): 0.9332 (x=1.5 이하일 확률)


In [45]:
sf_val = stats.norm.sf(x_val, loc=mu_norm, scale=std_norm)
print(f"SF (상보누적분포함수) @ x={x_val} (P(X > {x_val})): {sf_val:.4f} (x={x_val} 초과일 확률)")

SF (상보누적분포함수) @ x=1.5 (P(X > 1.5)): 0.0668 (x=1.5 초과일 확률)


In [46]:
ppf_val = stats.norm.ppf(cdf_val, loc=mu_norm, scale=std_norm)
print(f"PPF (역누적분포함수) @ P={cdf_val:.4f}: {ppf_val:.4f} (x={x_val}와 거의 같아야 함)")

PPF (역누적분포함수) @ P=0.9332: 1.5000 (x=1.5와 거의 같아야 함)


In [47]:
print(f"CDF + SF = {cdf_val + sf_val:.4f} (1에 가까워야 함)")

CDF + SF = 1.0000 (1에 가까워야 함)


✏️ **연습 문제 (Practice Problems)**

1.  **S&P 500 일간 수익률 분석**:
    * 위 예시코드에서 사용된 `sp500_returns` 데이터에 대해 히스토그램과 KDE 플롯을 그리세요.
    * Q-Q plot을 이용하여 이 데이터가 (a) 정규분포를 따르는지, (b) t-분포를 (적절한 자유도로) 따르는지 시각적으로 비교하고, 어떤 분포가 더 적합해 보이는지 이유와 함께 설명하세요.
2.  **S&P 500 수익률 정규성 검정 심층 분석**:
    * `sp500_returns` 데이터에 대해 Shapiro-Wilk 검정과 D'Agostino and Pearson's 검정을 수행하세요.
    * 각 검정의 p-value를 유의수준 $\alpha=0.05$와 비교하여 귀무가설(데이터가 정규분포를 따른다)의 채택/기각 여부를 판단하고, 그 의미를 해석하세요.
3.  **Old Faithful Geyser 대기 시간 분포 추정**:
    * 예시코드의 `waiting_times` (가상 데이터)에 대해 히스토그램과 KDE 플롯을 그리세요. 이 데이터는 단일 분포보다는 혼합 분포의 형태를 띨 수 있습니다.
    * `stats.gamma.fit(waiting_times, floc=0)`을 사용하여 감마 분포의 모수($a$, $scale$)를 추정하고, 추정된 PDF를 히스토그램 위에 겹쳐 그리세요.
    * 마찬가지로 `stats.expon.fit(waiting_times, floc=0)`을 사용하여 지수 분포의 모수($scale$)를 추정하고, PDF를 겹쳐 그리세요.
    * 시각적으로 어떤 분포가 데이터의 전반적인 형태를 (혹은 일부라도) 더 잘 설명하는 것 같나요? (참고: 실제로는 혼합 모델을 고려하거나, 데이터를 분리하여 분석할 수 있습니다.)
4.  **감마 분포 적합도 검정**:
    * `waiting_times` 데이터와 문제 3에서 추정한 감마 분포의 모수(`ag`, `locg`, `scaleg`)를 사용하여 Kolmogorov-Smirnov 검정 (`stats.kstest(waiting_times, 'gamma', args=(ag, locg, scaleg))`)을 수행하세요.
    * p-value를 기준으로 유의수준 $\alpha=0.05$에서 귀무가설(데이터가 해당 감마 분포를 따른다)의 채택/기각 여부를 판단하고, 그 의미를 설명하세요.
5.  **항공기 도착 지연 시간 로그 변환**:
    * 예시코드의 `airline_delays` (가상 데이터, 0 초과 값들)에 대해 (a) 원본 데이터의 히스토그램, (b) `np.log(airline_delays)`로 로그 변환된 데이터의 히스토그램을 그리세요.
    * 로그 변환 후 분포 모양이 정규분포에 더 가까워지는지 시각적으로 확인하세요.
    * 원본 데이터와 로그 변환된 데이터 각각에 대해 Shapiro-Wilk 검정을 수행하여 정규성을 비교하고 결과를 해석하세요.
6.  **자전거 시간당 대여 건수와 포아송 분포**:
    * 예시코드의 `bike_counts_hourly` (가상 데이터)의 평균값을 포아송 분포의 모수 $\lambda$로 추정하세요.
    * 이 $\lambda$를 사용하여 이론적인 포아송 분포의 PMF(확률 질량 함수) 값을 x=0부터 x=40까지 계산하세요 (`stats.poisson.pmf`).
    * 실제 데이터(`bike_counts_hourly`)의 값들의 빈도(상대 빈도 또는 정규화된 빈도)를 막대그래프로 그리고, 계산된 포아송 PMF를 선 그래프로 겹쳐서 비교하세요. 두 분포가 얼마나 유사한가요?
7.  **이항 분포를 이용한 타율 기반 안타 수 예측**:
    * 어떤 야구선수의 한 타석당 안타를 칠 확률(타율)이 $p=0.28$이라고 가정합니다. 이 선수가 한 시즌 동안 $n=550$번의 타석에 들어선다고 할 때 다음을 계산하세요 (이항 분포 사용):
        * 정확히 150개의 안타를 칠 확률 (`stats.binom.pmf`).
        * 160개 이하의 안타를 칠 확률 (`stats.binom.cdf`).
        * 170개 이상의 안타를 칠 확률 (SF 또는 1-CDF 사용).
8.  **베타 분포 샘플링 및 평균 비교**:
    * `scipy.stats.beta.rvs(a, b, size=2000)`를 사용하여 $a=2.5, b=7.5$인 베타 분포에서 2000개의 샘플을 생성하세요.
    * 생성된 샘플의 히스토그램을 그리고, 이론적인 베타 분포의 PDF를 겹쳐 그리세요.
    * 베타 분포의 이론적 평균은 $a / (a+b)$입니다. 이 값을 계산하고, 생성된 샘플 데이터의 평균(`np.mean()`)과 비교하세요. 두 값이 유사한가요?
9.  **지진 규모 데이터와 파레토 분포 (시각적 탐색)**:
    * 예시코드의 `earthquake_magnitudes` (가상 데이터)에 대해 히스토그램을 그리세요.
    * 같은 데이터를 로그-로그 스케일의 플롯(예: `plt.loglog(bins_center, counts, 'o-')` 또는 히스토그램의 y축을 로그 스케일로 설정)으로 그려보세요. 파레토 분포(멱법칙)의 특징인 직선 형태가 나타나는지 관찰하세요. (참고: 실제 데이터 분석 시에는 `stats.pareto.fit`으로 모수를 추정하고, 추정된 PDF를 겹쳐 그릴 수 있습니다.)
10. **다양한 분포에서의 확률 계산**:
    * **표준 정규 분포 $Z \sim N(0,1)$**:
        * $P(Z > 1.96)$
        * $P(Z \le -1.28)$
        * $P(-1.645 \le Z \le 1.645)$
    * **자유도가 10인 t-분포 $T \sim t(10)$**:
        * $P(T > 2.228)$ (힌트: `stats.t.sf` 또는 `1 - stats.t.cdf`)
        * CDF 값이 0.95가 되는 t 값 (힌트: `stats.t.ppf`)
    * **모수 $\lambda=5$인 포아송 분포 $P \sim Poisson(5)$**:
        * $P(P = 3)$
        * $P(P \le 2)$
    * **모수 $scale=20$ (평균=20)인 지수 분포 $X \sim Exp(scale=20)$**:
        * $P(X > 30)$
        * $P(X \le 10)$