## 대수의 법칙과 중심극한정리 🎲📊

Python을 활용하여 데이터 과학과 통계의 핵심적인 두 가지 개념, 바로 **대수의 법칙(Law of Large Numbers, LLN)**과 **중심극한정리(Central Limit Theorem, CLT)**에 대해 알아보겠습니다. 이 두 정리는 우리가 데이터를 이해하고 예측하는 데 있어 매우 중요한 역할을 합니다. 

### 📜 1. 대수의 법칙 (Law of Large Numbers, LLN)

#### 1.1 개념 이해하기

**대수의 법칙** 이란, **표본의 크기(관찰 횟수)가 커질수록 우리가 얻은 표본 평균이 실제 모집단의 평균(모평균)에 가까워진다** 는 원리입니다. 아주 간단하게 말하면, "많이 해보면 진짜 평균에 가까워진다"는 뜻이죠!

예를 들어, 공정한 동전(앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5)을 던진다고 생각해봅시다.

* **몇 번 안 던졌을 때**: 10번 던졌는데 앞면이 7번 나왔다면, 표본 평균은 0.7입니다. 실제 모평균 0.5와는 차이가 있죠.
* **아주 많이 던졌을 때**: 만약 10,000번을 던진다면, 앞면이 나온 횟수는 5,000번에 매우 가까워질 것이고, 표본 평균도 0.5에 근접하게 될 것입니다.

이것이 바로 대수의 법칙입니다. 시행 횟수가 많아질수록 결과의 불확실성이 줄어들고, 우리가 관찰한 값이 실제 값에 수렴하는 현상을 설명합니다.

#### 1.2 Python으로 시뮬레이션 해보기 💻

이제 Python으로 동전 던지기 시뮬레이션을 통해 대수의 법칙을 직접 확인해보겠습니다. 앞면을 1, 뒷면을 0으로 가정하고, 시행 횟수를 늘려가면서 앞면이 나올 확률(표본 평균)이 실제 확률(모평균) 0.5에 어떻게 수렴하는지 관찰해봅시다.

In [2]:
import numpy as np
import plotly.express as px
import pandas as pd

# 모평균 (공정한 동전의 경우 앞면이 나올 확률)
true_probability = 0.5

# 시뮬레이션할 최대 던지기 횟수
max_trials = 5000

# 각 시행 횟수마다의 표본 평균을 저장할 리스트
sample_means = []

# 시행 횟수를 1부터 max_trials까지 늘려가며 시뮬레이션
for n_trials in range(1, max_trials + 1):
    # 동전 던지기 시뮬레이션 (0: 뒷면, 1: 앞면)
    # np.random.binomial(1, p, size)는 한 번의 시도에서 성공 확률이 p인 베르누이 시행을 size만큼 반복
    trials = np.random.binomial(1, true_probability, n_trials)
    current_mean = np.mean(trials)
    sample_means.append(current_mean)

# 시각화를 위한 데이터프레임 생성
df_lln = pd.DataFrame({
    'Number of Trials': list(range(1, max_trials + 1)),
    'Sample Mean': sample_means
})
df_lln.head()

Unnamed: 0,Number of Trials,Sample Mean
0,1,0.0
1,2,1.0
2,3,0.333333
3,4,0.0
4,5,0.4


In [3]:
# Plotly Express를 사용하여 시각화
fig_lln = px.line(df_lln, x='Number of Trials', y='Sample Mean',
                  title=f'대수의 법칙 시뮬레이션: 동전 던지기 (모평균={true_probability})',
                  labels={'Number of Trials': '던진 횟수', 'Sample Mean': '앞면 비율의 누적 평균'})

# 모평균을 나타내는 수평선 추가
fig_lln.add_hline(y=true_probability, line_dash="dash", line_color="red",
                  annotation_text=f"모평균 = {true_probability}",
                  annotation_position="bottom right")

fig_lln.show()

**코드 설명:**

1.  `numpy`를 `np`로, `plotly.express`를 `px`로, `pandas`를 `pd`로 불러옵니다.
2.  `true_probability`: 동전의 앞면이 나올 실제 확률(모평균)을 0.5로 설정합니다.
3.  `max_trials`: 최대 동전 던지기 횟수를 5000번으로 설정합니다.
4.  `sample_means`: 각 시행 횟수에서의 표본 평균(지금까지 던진 동전 중 앞면이 나온 비율)을 저장할 빈 리스트입니다.
5.  `for` 루프를 사용하여 1번부터 `max_trials`번까지 동전을 던집니다.
    * `np.random.binomial(1, true_probability, n_trials)`: `n_trials`만큼 동전을 던지는 것을 시뮬레이션합니다. `binomial(1, p)`는 베르누이 분포(성공/실패만 있는 시행)를 따르며, 여기서는 앞면(1)이 나올 확률이 `true_probability`입니다.
    * `np.mean(trials)`: 현재까지 던진 동전들 중 앞면이 나온 비율(표본 평균)을 계산합니다.
    * 계산된 표본 평균을 `sample_means` 리스트에 추가합니다.

**실행 결과**

그래프를 보면, 던진 횟수가 적을 때는 표본 평균이 0.5 주변에서 크게 변동하지만, 던진 횟수가 점점 많아질수록 표본 평균이 모평균인 0.5에 점점 더 가까워지며 안정되는 것을 확인할 수 있습니다. 이것이 바로 대수의 법칙을 시각적으로 보여주는 결과입니다!


---

### 🎲 2. 중심극한정리 (Central Limit Theorem, CLT)

직관적이해를 돕는 동영상 설명 : https://www.youtube.com/watch?v=SoKjCUcDBf0

#### 2.1 개념 이해하기

**중심극한정리**는 통계학에서 가장 강력하고 놀라운 아이디어 중 하나입니다. 이 정리는 **모집단의 원래 분포 모양과는 관계없이, 표본의 크기가 충분히 크다면(일반적으로 n ≥ 30), 여러 번 추출한 표본 평균들의 분포는 정규분포(종 모양 그래프)에 가까워진다**는 내용입니다.

이게 왜 중요할까요?

* **모집단 분포를 몰라도 괜찮아!**: 우리가 분석하려는 실제 데이터(모집단)가 어떤 복잡한 분포를 따르는지 정확히 알지 못하더라도, 표본 평균의 분포는 예측 가능한 정규분포를 따르기 때문에 통계적 추론(예: 신뢰구간 추정, 가설 검정)을 할 수 있게 됩니다.
* **정규분포의 위력**: 정규분포는 수학적으로 다루기 쉽고, 많은 통계 기법들이 정규분포를 가정하고 개발되었기 때문에 활용도가 매우 높습니다.

**핵심 아이디어:**

1.  모집단에서 **일정한 크기(n)** 의 표본을 여러 번 추출합니다.
2.  각각의 표본으로부터 **표본 평균** 을 계산합니다.
3.  이렇게 얻어진 **여러 개의 표본 평균들** 을 모아 분포를 그려보면, 이 분포가 바로 정규분포를 따른다는 것입니다.
4.  이때, 표본 평균들의 분포의 평균은 **모평균($\mu$)** 과 같고, 분산은 **모분산($\sigma^2$)을 표본 크기(n)로 나눈 값 ($\frac{\sigma^2}{n}$)** 이 됩니다. 즉, 표본 표준편차(표준오차)는 $\frac{\sigma}{\sqrt{n}}$ 입니다.

#### 2.2 Python으로 시뮬레이션 해보기 💻

이번에는 원래 정규분포가 아닌 분포(예: 균일 분포)를 가진 모집단에서 표본을 추출하고, 그 표본 평균들의 분포가 정말 정규분포를 따르는지 시뮬레이션을 통해 확인해보겠습니다.

In [4]:
import numpy as np
import plotly.express as px
import pandas as pd

# 모집단 설정: 0과 1 사이의 균일 분포
# 이 분포는 정규분포가 아님!
population_size = 100000
# np.random.uniform(low, high, size)는 low와 high 사이의 균일 분포에서 size만큼 표본 추출
population = np.random.uniform(0, 1, population_size)

# 모집단의 평균과 표준편차 (이론값: 평균 0.5, 표준편차 sqrt(1/12) approx 0.2887)
mu = np.mean(population)
sigma = np.std(population)

print(f"모집단 평균 (μ): {mu:.4f}")
print(f"모집단 표준편차 (σ): {sigma:.4f}\n")

모집단 평균 (μ): 0.5006
모집단 표준편차 (σ): 0.2893



In [7]:
pop_df = pd.DataFrame({
    "x" : population
})
px.histogram(pop_df, x="x", title="모집단 분포", nbins=100)

In [5]:
# 표본 크기 및 시뮬레이션 횟수
sample_size = 30  # 각 표본의 크기 (CLT가 잘 작동하려면 보통 30 이상)
n_samples = 1000  # 추출할 표본의 개수 (표본 평균을 몇 개 만들 것인가)

# 표본 평균들을 저장할 리스트
sample_means_clt = []

# 여러 번 표본 추출 및 표본 평균 계산
for _ in range(n_samples):
    # 모집단에서 sample_size만큼 비복원 추출 (또는 복원 추출, 여기서는 복원 추출로 간주)
    sample = np.random.choice(population, size=sample_size, replace=True)
    sample_mean = np.mean(sample)
    sample_means_clt.append(sample_mean)

# 시각화를 위한 데이터프레임 생성
df_clt = pd.DataFrame({'Sample Means': sample_means_clt})
df_clt.head()

Unnamed: 0,Sample Means
0,0.500094
1,0.537992
2,0.527303
3,0.456152
4,0.549535


In [6]:
# Plotly Express를 사용하여 히스토그램 및 KDE(커널 밀도 추정) 플롯 생성
fig_clt = px.histogram(df_clt, x='Sample Means', nbins=50,
                       title=f'중심극한정리 시뮬레이션 (표본 크기 n={sample_size})',
                       labels={'Sample Means': '표본 평균'},
                       histnorm='probability density', # 정규화된 히스토그램 (밀도)
                       marginal="rug") # 데이터 포인트 위치 표시

# 표본 평균들의 평균과 표준편차 (이론값과 비교)
mean_of_sample_means = np.mean(sample_means_clt)
std_of_sample_means = np.std(sample_means_clt) # 이것이 바로 표준오차(Standard Error)

print(f"표본 평균들의 평균: {mean_of_sample_means:.4f} (이론값: 모평균 μ ≈ {mu:.4f})")
print(f"표본 평균들의 표준편차 (표준오차): {std_of_sample_means:.4f} (이론값: σ/√n ≈ {sigma/np.sqrt(sample_size):.4f})")

fig_clt.show()

표본 평균들의 평균: 0.4994 (이론값: 모평균 μ ≈ 0.5006)
표본 평균들의 표준편차 (표준오차): 0.0536 (이론값: σ/√n ≈ 0.0528)


In [None]:
# 추가: 모집단 분포도 함께 그려보기
fig_population = px.histogram(x=population, nbins=100, title='원래 모집단 분포 (균일 분포)', histnorm='probability density')
fig_population.show()

**코드 설명:**

1.  `population`: `np.random.uniform(0, 1, population_size)`을 사용하여 0과 1 사이의 값을 갖는 균일 분포 형태의 모집단을 생성합니다. 이 분포는 종 모양의 정규분포와는 다릅니다.
2.  `mu`, `sigma`: 생성된 모집단의 실제 평균과 표준편차를 계산합니다.
3.  `sample_size`: 각 표본에 포함될 데이터의 개수를 30으로 설정합니다.
4.  `n_samples`: 표본을 추출하고 표본 평균을 계산하는 작업을 1000번 반복합니다.
5.  `sample_means_clt`: 계산된 1000개의 표본 평균들을 저장할 리스트입니다.
6.  `for` 루프 내:
    * `np.random.choice(population, size=sample_size, replace=True)`: 모집단에서 `sample_size`만큼 데이터를 무작위로 복원 추출하여 하나의 표본을 만듭니다. (`replace=True`는 복원 추출을 의미하며, 큰 모집단에서는 비복원 추출과 유사한 결과를 줍니다.)
    * `np.mean(sample)`: 추출된 표본의 평균을 계산합니다.
    * 계산된 표본 평균을 `sample_means_clt` 리스트에 추가합니다.
7.  시각화를 위해 `pandas` DataFrame을 생성합니다.
8.  `plotly.express.histogram()` 함수를 사용하여 표본 평균들의 분포를 히스토그램으로 그립니다.
    * `nbins`: 히스토그램 막대의 개수를 설정합니다.
    * `histnorm='probability density'`: 히스토그램의 y축을 확률 밀도로 정규화하여 전체 면적이 1이 되도록 합니다. 이렇게 하면 다른 분포와 비교하기 용이합니다.
    * `marginal="rug"`: x축 아래에 각 데이터 포인트의 위치를 작은 선(rug)으로 표시하여 데이터의 실제 분포를 간략하게 보여줍니다.
9.  표본 평균들의 평균(`mean_of_sample_means`)과 표준편차(`std_of_sample_means`, 즉 표준오차)를 계산하고, CLT에서 예측하는 이론값(모평균 $\mu$, 표준오차 $\sigma/\sqrt{n}$)과 비교하여 출력합니다.
10. `fig_clt.show()`: 생성된 표본 평균 분포 그래프를 표시합니다.
11. 추가적으로, 원래 모집단의 분포도 히스토그램으로 그려서 표본 평균의 분포와 비교해봅니다.

**실행 결과**

* **모집단 분포 그래프**: 균일 분포이므로, 0과 1 사이에서 거의 평평한 모양의 히스토그램이 나타납니다.
* **표본 평균 분포 그래프**: 이 그래프는 놀랍게도 **종 모양(정규분포와 유사한 모양)** 을 띱니다! 원래 모집단이 균일 분포였음에도 불구하고, 표본 평균들의 분포는 중심극한정리에 따라 정규분포에 가까워지는 것을 확인할 수 있습니다.
* **출력된 값 비교**:
    * "표본 평균들의 평균"은 "모집단 평균 ($\mu$)"에 매우 가까운 값을 가질 것입니다.
    * "표본 평균들의 표준편차 (표준오차)"는 "$\sigma/\sqrt{n}$" (모집단 표준편차 / 루트(표본크기)) 값에 매우 가까울 것입니다.

이 시뮬레이션을 통해, 우리는 모집단의 분포 형태에 관계없이 표본의 크기가 충분히 크다면 표본 평균의 분포가 정규분포를 따른다는 중심극한정리의 강력함을 눈으로 확인할 수 있습니다.

---

### 💡 정리 및 중요성

* **대수의 법칙 (LLN)**: "많이 시도하면 (표본 크기가 커지면) 결과가 실제 평균에 가까워진다."
    * 중요성: 우리가 수집한 데이터가 충분히 많다면, 그 데이터로부터 얻은 통계치(예: 평균)가 실제 모집단의 특성을 잘 대표한다고 믿을 수 있게 해줍니다. 보험, 도박, 품질 관리 등 다양한 분야에서 장기적인 예측의 근거가 됩니다.

* **중심극한정리 (CLT)**: "모집단 분포가 어떻든, 표본 크기가 충분히 크면 표본 평균들의 분포는 정규분포를 따른다."
    * 중요성: 많은 통계적 검정 및 추정 방법들이 데이터가 정규분포를 따른다는 가정 하에 만들어졌습니다. CLT 덕분에 모집단이 정규분포가 아니더라도 표본 평균을 이용하여 이러한 강력한 통계 도구들을 사용할 수 있게 됩니다. 이는 현대 통계학의 근간을 이루는 매우 중요한 정리입니다.

---


### ✏️ 실습 과제 : 다양한 모집단과 표본 크기로 중심극한정리 탐구하기 📈

이번에는 **지수 분포(Exponential Distribution)**를 모집단으로 설정하고, 중심극한정리가 실제로 나타나는지 시뮬레이션으로 확인해보세요. 지수 분포는 오른쪽으로 꼬리가 긴 비대칭 분포입니다. 다양한 표본 크기(예: n=2, n=10, n=30, n=100)에 대해 표본 평균의 분포가 어떻게 변하는지 관찰하고 설명하세요.

**요구사항:**

1.  `numpy.random.exponential(scale=..., size=...)` 함수를 사용하여 지수 분포를 따르는 모집단을 생성합니다. (예: `scale=1`, `size=100000`)
    * 지수 분포의 평균은 `scale` 값과 같습니다.
    * 지수 분포의 표준편차도 `scale` 값과 같습니다.
2.  각 표본 크기 (`sample_sizes = [2, 10, 30, 100]`)별로 다음을 반복합니다:
    * 모집단에서 해당 `sample_size`만큼의 표본을 1000번 추출합니다.
    * 각 표본의 평균을 계산하여 저장합니다.
3.  각 표본 크기별로 수집된 표본 평균들의 분포를 Plotly Express를 사용하여 **히스토그램**으로 시각화합니다 (`histnorm='probability density'` 사용).
    * 각 그래프의 제목에 사용된 표본 크기를 명시합니다.
    * 원래 모집단(지수 분포)의 히스토그램도 함께 그려서 비교해보면 좋습니다.
4.  마크다운 셀에 다음 내용을 포함하여 결과를 설명합니다:
    * 원래 모집단(지수 분포)의 모양은 어떠한가?
    * 표본 크기가 증가함에 따라 표본 평균의 분포 모양은 어떻게 변하는가? 중심극한정리가 관찰되는가?
    * 각 표본 평균 분포의 평균은 모집단 평균에 가까워지는가?
    * 표본 크기가 커질수록 표본 평균 분포의 표준편차(표준오차)는 어떻게 변하는가? 이론값($\sigma/\sqrt{n}$)과 비교해볼 수 있다면 더욱 좋습니다.

**힌트:**

* `np.random.exponential()` 함수의 `scale` 파라미터는 $\lambda$의 역수 ($\beta = 1/\lambda$)이며, 이 분포의 평균과 표준편차는 모두 `scale` 값과 같습니다.
* 튜토리얼의 중심극한정리 시뮬레이션 코드를 참고하여 여러 표본 크기에 대한 반복문 구조를 추가합니다.
* Plotly의 `facet_col` 또는 `facet_row` 옵션을 사용하거나, 여러 개의 `fig.show()`를 호출하여 여러 그래프를 한 번에 또는 순차적으로 볼 수 있습니다.

In [None]:
# 과제 작성