## ブートストラップ法について

ブートストラップ法（Bootstrap Method）は、データの再サンプリングに基づく統計推定手法の一つです。元のデータセットから多数のサブサンプルを作成し、それらに基づいて推定量の分布を評価することができます。この方法は、標本分布の推定や標準誤差の計算、信頼区間の構築などに広く使われます。

### 基本的な考え方

ブートストラップ法は、元のデータセットを再サンプリングすることで、推定量の分布を評価します。具体的には、次のような手順で行います：

1. **元のデータセット**: $X = \{x_1, x_2, ..., x_n\}$（元のデータセット、サイズ$n$）
2. **再サンプリング**: 元のデータセットから、復元抽出（同じデータ点を複数回選ぶことができる抽出）によって新しいサンプルを多数（$B$個）生成します。
3. **統計量の計算**: 各再サンプルに対して、関心のある統計量（平均、分散、回帰係数など）を計算します。
4. **分布の評価**: 再サンプルから得られた統計量の分布をもとに、推定量の標準誤差や信頼区間を評価します。

### ブートストラップ法の手順

1. **再サンプルの生成**:
   - 元のデータセット$X$から、サイズ$n$の再サンプル$X^*_b$（$b = 1, 2, ..., B$）を復元抽出で生成します。$B$は再サンプルの数です。

2. **統計量の計算**:
   - 各再サンプル$X^*_b$に対して、関心のある統計量$\hat{\theta}^*_b$を計算します。

3. **標準誤差の推定**:
   - 再サンプルから得られた統計量の標準誤差を計算します。
     $$
     \text{SE}_{\text{boot}} = \sqrt{\frac{1}{B-1} \sum_{b=1}^{B} (\hat{\theta}^*_b - \bar{\theta}^*)^2}
     $$
     ここで、$\bar{\theta}^*$は再サンプル統計量の平均です。

4. **信頼区間の構築**:
   - 再サンプル統計量の分布を用いて、信頼区間を構築します。例えば、分位数法（Percentile Method）を用いる場合、再サンプル統計量の下位2.5%点と上位97.5%点を信頼区間の下限と上限とします。

### Pythonでの実装例

以下に、ブートストラップ法を使って平均値の標準誤差と信頼区間を推定するPythonコードの例を示します。



このコードは、元のデータセットから多数の再サンプルを生成し、それぞれのサンプルに対して平均値を計算します。再サンプルから得られた平均値の分布を用いて、標準誤差と95%信頼区間を推定し、結果をプロットします。

### まとめ

- **ブートストラップ法**は、再サンプリングを通じて統計量の分布を評価し、標準誤差や信頼区間を推定する方法です。
- **手順**として、元のデータセットから復元抽出による再サンプルを生成し、各再サンプルに対して統計量を計算します。
- **Pythonでの実装**も比較的簡単で、様々な統計推定に応用可能です。
- **利用シーン**として、標本分布の推定、標準誤差の計算、信頼区間の構築などがあります。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 元のデータセット
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
n = len(data)
B = 10000  # 再サンプルの数

# 再サンプルから平均値を計算
bootstrap_means = np.zeros(B)
for b in range(B):
    bootstrap_sample = np.random.choice(data, size=n, replace=True)
    bootstrap_means[b] = np.mean(bootstrap_sample)

# ブートストラップ標準誤差
bootstrap_se = np.std(bootstrap_means)

# ブートストラップ信頼区間（95%）
conf_interval = np.percentile(bootstrap_means, [2.5, 97.5])

print(f"ブートストラップ標準誤差: {bootstrap_se}")
print(f"ブートストラップ信頼区間: {conf_interval}")

# 結果のプロット
plt.figure(figsize=(10, 6))
plt.hist(bootstrap_means, bins=50, density=True, alpha=0.6, color='g')
plt.axvline(conf_interval[0], color='r', linestyle='--')
plt.axvline(conf_interval[1], color='r', linestyle='--')
plt.title('Bootstrap Sampling Distribution of the Mean')
plt.xlabel('Mean')
plt.ylabel('Density')
plt.show()