## 非復元抽出の分散

非復元抽出（without replacement sampling）における分散について説明します。

### 前提条件
母集団サイズを $N$、標本サイズを $n$、母平均を $\mu$、母分散を $\sigma^2$ とします。

### 非復元抽出の分散
非復元抽出における分散は以下の式で表されます：

$$
\text{Var}(\bar{X}) = \frac{\sigma^2}{n} \left(1 - \frac{n-1}{N-1}\right)
$$

ここで、
- $\bar{X}$ は標本平均です。
- $\sigma^2$ は母分散です。
- $n$ は標本サイズです。
- $N$ は母集団サイズです。

### 分散の具体例

例えば、母集団が $N = 100$、母分散が $\sigma^2 = 25$、標本サイズが $n = 10$ の場合、分散は次のように計算されます：

$$
\text{Var}(\bar{X}) = \frac{25}{10} \left(1 - \frac{10-1}{100-1}\right)
= \frac{25}{10} \left(1 - \frac{9}{99}\right)
= 2.5 \left(1 - 0.0909\right)
= 2.5 \times 0.9091
= 2.27275
$$

したがって、この場合の分散は $2.27275$ となります。

### Pythonでの計算例

以下にPythonコードを示します。



このコードを実行すると、上記の計算結果である $2.27275$ が得られます。

In [2]:
# パラメータの定義
N = 100  # 母集団サイズ
sigma_squared = 25  # 母分散
n = 10  # 標本サイズ

# 分散の計算
variance = (sigma_squared / n) * (1 - (n - 1) / (N - 1))
variance

2.2727272727272725

## 層化無作為抽出法

層化無作為抽出法（stratified random sampling）について説明します。この方法は、母集団をいくつかの層（strata）に分け、各層から無作為にサンプルを抽出する方法です。この方法は、母集団の異質性を考慮し、より正確な推定を得るために使用されます。

### 手順

1. **母集団の分割**：
   母集団を互いに重ならない層に分割します。各層は内部的に均質（同質）で、層間は異質であるように分けます。例えば、年齢、性別、収入などの属性に基づいて層を作ります。

2. **各層からのサンプル抽出**：
   各層から無作為にサンプルを抽出します。抽出するサンプルのサイズは、層の大きさに比例させることが一般的です（比例割当法）。例えば、母集団全体の10%をサンプリングする場合、各層からもその層の10%を抽出します。

3. **データの統合**：
   各層から得られたサンプルを統合して、全体のサンプルを構成します。

### 層化無作為抽出法の利点

1. **精度の向上**：
   各層が内部的に均質であるため、層内の変動が小さくなります。これにより、推定の精度が向上します。

2. **代表性の確保**：
   母集団の異なる部分が均等に反映されるため、サンプルが母集団の代表性を持ちやすくなります。

3. **詳細な分析**：
   各層ごとの結果を個別に分析できるため、詳細な分析が可能です。

### 具体例

例えば、ある学校の学生を対象に学力調査を行うとします。学生は学年ごとに層に分け、それぞれの学年から無作為にサンプルを抽出します。

- 学年1の学生数：200人
- 学年2の学生数：300人
- 学年3の学生数：500人

全体で1000人の学生がいるとします。このうち10%のサンプルを取る場合、各学年から以下のように抽出します：

- 学年1：200人の10% → 20人
- 学年2：300人の10% → 30人
- 学年3：500人の10% → 50人

合計で100人のサンプルが得られます。

### Pythonでの実装例

以下に、層化無作為抽出法をシミュレーションするPythonコードの例を示します。



このコードは、学年ごとに10%のサンプルを無作為に抽出します。各学年の学生数に基づいて適切な数のサンプルを取得し、それを一つのデータフレームにまとめます。

In [1]:
import numpy as np
import pandas as pd

# データの作成
np.random.seed(0)
data = pd.DataFrame({
    '学年': np.repeat([1, 2, 3], [200, 300, 500]),
    '得点': np.random.randint(50, 100, 1000)
})

# 各層のサンプルサイズの計算
sample_size = 0.1  # 10%サンプル
strata_sizes = data['学年'].value_counts()
strata_sample_sizes = (strata_sizes * sample_size).astype(int)

# 層化無作為抽出
sample = data.groupby('学年', group_keys=False).apply(lambda x: x.sample(strata_sample_sizes.loc[x.name]))

# 抽出結果の表示
sample

  sample = data.groupby('学年', group_keys=False).apply(lambda x: x.sample(strata_sample_sizes.loc[x.name]))


Unnamed: 0,学年,得点
56,1,55
146,1,66
66,1,51
136,1,64
39,1,69
...,...,...
553,3,56
729,3,54
675,3,76
623,3,52


## ネイマン配分法について

ネイマン配分法（Neyman Allocation）は、層別抽出法（Stratified Sampling）において、各層に対してサンプルサイズを割り当てるための方法です。この方法は、各層の標準偏差と層のサイズに基づいて、全体のサンプルサイズを層に適切に分配します。ネイマン配分法は、全体のサンプルの標準誤差を最小化することを目的としています。

### ネイマン配分法の基本原理

ネイマン配分法では、各層のサンプルサイズを次のように計算します：

$$ n_h = \frac{N_h \sigma_h}{\sum_{k=1}^L N_k \sigma_k} n $$

ここで、
- $n_h$ は層 $h$ のサンプルサイズ
- $N_h$ は層 $h$ の全体のサイズ（母集団サイズ）
- $\sigma_h$ は層 $h$ の標準偏差
- $n$ は全体のサンプルサイズ
- $L$ は層の総数

### ネイマン配分法のメリット

1. **効率性**: ネイマン配分法は、全体の標準誤差を最小化するため、効率的なサンプリングが可能です。
2. **精度向上**: 層ごとの標準偏差を考慮するため、変動の大きい層にはより多くのサンプルが割り当てられ、結果として精度の高い推定が可能となります。

### ネイマン配分法の例

具体的な例を考えてみましょう。例えば、以下のような層別データがあるとします：

| 層 | 母集団サイズ ($N_h$) | 標準偏差 ($\sigma_h$) |
|----|---------------------|---------------------|
| 1  | 100                 | 15                  |
| 2  | 200                 | 10                  |
| 3  | 150                 | 20                  |

全体のサンプルサイズ $n$ を 100 とします。この場合、各層のサンプルサイズ $n_h$ は次のように計算されます：

1. 各層の $N_h \sigma_h$ を計算します。
   - 層1: $100 \times 15 = 1500$
   - 層2: $200 \times 10 = 2000$
   - 層3: $150 \times 20 = 3000$

2. これらの合計を計算します。
   - 合計: $1500 + 2000 + 3000 = 6500$

3. 各層のサンプルサイズ $n_h$ を計算します。
   - 層1: $\frac{1500}{6500} \times 100 \approx 23$
   - 層2: $\frac{2000}{6500} \times 100 \approx 31$
   - 層3: $\frac{3000}{6500} \times 100 \approx 46$

### Pythonコードによる計算例

以下に、上記の計算をPythonで実行するコードを示します。


このコードを実行すると、各層のサンプルサイズが計算されます。

In [1]:
import numpy as np

# 各層の母集団サイズと標準偏差
N_h = np.array([100, 200, 150])
sigma_h = np.array([15, 10, 20])
n = 100  # 全体のサンプルサイズ

# 各層の N_h * sigma_h を計算
Nh_sigmah = N_h * sigma_h

# 全体の N_h * sigma_h の合計
total_Nh_sigmah = np.sum(Nh_sigmah)

# 各層のサンプルサイズ n_h を計算
n_h = (Nh_sigmah / total_Nh_sigmah) * n

# 結果を表示
n_h = np.round(n_h).astype(int)
n_h


array([23, 31, 46])