# 標本分布

統計的性質を分析したい対象を**母集団**（population）といい、調査等により母集団から得られたデータを**標本**（sample）という。

統計的推測では母集団の平均（**母平均**）$\mu$や分散（**母分散**）$\sigma^2$といった**母数**（population parameter）を標本に基づいて推定する。

標本から得られた平均や分散

$$
\begin{align}
\bar{X} &= \frac{1}{n} \sum^n_{i=1} X_i\\
S^2 &= \frac{1}{n} \sum^n_{i=1} (X_i - \bar{X})^2
\end{align}
$$

はそれぞれ**標本平均**（sample mean）や**標本分散**（sample variance）と呼ばれる。

標本平均のような、標本に基づいた関数で母数を含んでないものを**統計量**（statistics）といい、その確率分布を**標本分布**（sampling distribution）という。

母数の推定のためには統計量がどのようにばらつくか等の標本分布の性質が利用される。

平均が$\mu$、分散が$\sigma^2$の確率分布を母集団とする独立同分布から得られたランダム・サンプルを

$$
X_1, \cdots, X_n, i.i.d. \sim (\mu, \sigma^2)
$$

と書くことにする。

$E[X_i] = \mu, V[X_i] = \sigma^2$を用いて、標本平均$\bar{X}$の平均と分散を計算すると

$$
\begin{align}
E[\bar{X}] &= \frac{1}{n} \sum^n_{i=1} E[X_i] = \frac{1}{n} \sum^n_{i=1} \mu = \mu\\
V[\bar{X}] &= \frac{1}{n^2} \sum^n_{i=1} V[X_i] = \frac{\sigma^2}{n}
\end{align}
$$

となる。


::::{admonition} **線形結合の平均・分散**
定数$a_1, \cdots, a_k$による線形結合$\sum^k_{i=1} a_i X_i$を考えると、平均は

$$
E[\sum^k_{i=1} a_i X_i] = \sum^k_{i=1} a_i E[X_i] = \sum^k_{i=1} a_i \mu_i
$$

分散は

$$
\begin{align}
V \left[ \sum^k_{i=1} a_i X_i \right]
&= E \left[ \left\{\sum^k_{i=1} a_i (X_i - \mu_i) \right\}^2 \right] \\
&= E \left[
  \sum^k_{i=1} \{ a_i (X_i - \mu_i) \}^2 
  + \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j (X_i -\mu_i) (X_j -\mu_j)
\right] \\
&= \sum^k_{i=1} a_i^2 E[(X_i - \mu_i)^2]
+ 2 \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j E[(X_i - \mu_i)(X_j - \mu_j)] \\
&= \sum^k_{i=1} a_i^2 \sigma_{ii}
+ 2 \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j \sigma_{ij}
\end{align}
$$

であり、$X_1, \cdots, X_n$が互いに独立であれば共分散$\sigma_{ij}$はゼロになるため

$$
V \left[ \sum^k_{i=1} a_i X_i \right] = \sum^k_{i=1} a_i^2 \sigma_{ii}
$$

となる。

これらの線形結合の定数$a_i$を$1/n$に置き換えれば上記の標本分布の平均や分散の式になる。

:::{card} （参考）和の二乗の展開
$$
\begin{align}
(x_1 + x_2 + x_3)^2
&= x_1^2 + x_2^2 + x_3^2 + 2 (x_1 x_2 + x_1 x_3 + x_2 x_3) \\
&= \sum^n_{i=1} x_i^2 + 2 \sum_{i=1}^n \sum^n_{j = i + 1} x_i x_j
\end{align}
$$

なので

$$
(x_1 + \cdots + x_n)^2
= (\sum^n_{i=1} x_i)^2
= \sum^n_{i=1} x_i^2 + 2 \sum_{i=1}^n \sum^n_{j = i + 1} x_i x_j
$$
:::
::::

## 不偏分散

なお、$\bar{X}$は期待値をとると$\mu$になるが、$S^2$の期待値は$\sigma^2$にはならない。


$X_i - \bar{X} = X_i - \mu - (\bar{X} - \mu)$と代入すると、

$$
\begin{align}
\sum^n_{i=1} (X_i - \bar{X})^2
&= \sum^n_{i=1} [(X_i - \mu) - (\bar{X} - \mu)]^2\\
&= \sum^n_{i=1} (X_i - \mu)^2
  - 2 \sum^n_{i=1} (X_i - \mu)(\bar{X} - \mu)
  + \sum^n_{i=1}(\bar{X} - \mu)^2\\
&= \sum^n_{i=1} (X_i - \mu)^2
  - 2 (\bar{X} - \mu) \sum^n_{i=1} (X_i - \mu)
  + n(\bar{X} - \mu)^2 \\
  & \hspace{2em} (\textstyle \because \bar{X}と\muは定数のため\sumの外に出せる)\\
&= \sum^n_{i=1} (X_i - \mu)^2
  - 2 (\bar{X} - \mu)  (n\bar{X} - n\mu)
  + n(\bar{X} - \mu)^2 \\
  & \hspace{2em} (\textstyle \because \bar{X}=\frac{1}{n}\sum X_i なので n\bar{X} = \sum X_i)\\
&= \sum^n_{i=1} (X_i - \mu)^2
  - 2n (\bar{X} - \mu)^2
  + n (\bar{X} - \mu)^2 \\
&= \sum^n_{i=1} (X_i - \mu)^2
  - n (\bar{X} - \mu)^2
\end{align}
$$

なので

$$
\begin{align}
E[\sum_{i=1}^n (X_i - \bar{X})^2]
&= \sum^n_{i=1} E[(X_i - \mu)^2]
- E[(\bar{X} - \mu)^2]\\
&= n\sigma^2 - n\frac{\sigma^2}{n}\\
&= (n - 1) \sigma^2
\end{align}
$$

となるため、期待値が$\sigma^2$になるためには$\sum_{i=1}^n (X_i - \bar{X})^2$を$n-1$で割る必要がある。そのような統計量

$$
V^2 = \frac{1}{n-1} \sum^n_{i=1} (X_i - \bar{X})^2
$$

を不偏分散という。