# 標準偏差と標準誤差を理解する
参考: [統計WEB](https://bellcurve.jp/statistics/course/8616.html)

### 標準偏差
- 標準偏差は母集団から得られた個々のデータのばらつきを表すものであり、分散の正の平方根で定義される

### 標準誤差
- 推定量の標準偏差であり、標本から得られる推定量そのもののバラつき（＝精度）を表す
    - 母集団から抽出された標本から標本平均を求める場合、標本平均の値が母平均に対してどの程度ばらついているかを表すもの

## モジュールインポート

In [1]:
import numpy as np
import scipy.stats as stats
from tqdm import tqdm

## 標準偏差と標準誤差の違い

In [2]:
# 母集団平均0、分散5のデータを作成（標準偏差は sqrt(5)）
np.random.seed(41)  # 再現性のためのシード設定
population_size = 100000  # 母集団のサイズ
population = np.random.normal(loc=0, scale=np.sqrt(5), size=population_size)

# 標準偏差（Standard Deviation）
std_dev = np.std(population, ddof=0)  # 母集団の標準偏差

# 標本を抽出し、標準誤差（Standard Error）を計算
sample_size = 100  # 標本のサイズ
sample = np.random.choice(population, size=sample_size, replace=False)
standard_error = np.std(sample, ddof=1) / np.sqrt(sample_size)  # 標準誤差

print(f'標準偏差: {std_dev:.3f}')
print(f'標準誤差: {standard_error:.3f}')

標準偏差: 2.242
標準誤差: 0.231


## 信頼区間シミュレーション

In [9]:
population_size = 100000
pop_mean = 0
pop_var = 5
sample_size = 100
include_pop_mean_flag_list = []
n_trials = 1000

for i in tqdm(range(n_trials)):
    np.random.seed(i)  # 再現性のためのシード設定
    population = np.random.normal(loc=pop_mean, scale=np.sqrt(pop_var), size=population_size)
    sample = np.random.choice(population, size=sample_size, replace=False)
    
    # 標本平均の計算
    sample_mean = np.mean(sample)
    
    # 信頼区間の計算（95%信頼区間）
    confidence_level = 0.95
    df = sample_size - 1  # 自由度
    t_critical = stats.t.ppf((1 + confidence_level) / 2, df)  # t 分布の臨界値
    
    # 信頼区間の範囲
    margin_of_error = t_critical * standard_error
    confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)
    confidence_interval_lower = sample_mean - margin_of_error
    confidence_interval_upper = sample_mean + margin_of_error
    if pop_mean > confidence_interval_lower and pop_mean < confidence_interval_upper:
        include_pop_mean_flag = 1
    else:
        include_pop_mean_flag = 0
    include_pop_mean_flag_list.append(include_pop_mean_flag)
include_pop_mean_ratio = np.array(include_pop_mean_flag_list).mean()
print(f'信頼区間が母平均を含んでいる割合: {include_pop_mean_ratio:.3f}')

100%|██████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 525.57it/s]

信頼区間が母平均を含んでいる割合: 0.963



