[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snishiyama/intro-psych-stats-exercises/blob/main/11_interval-estimation.ipynb)

# 第11回演習の概要

前回に引き続き，乱数生成用のパッケージを利用した仮想実験を行う。その結果を図示し，**標本分布**について理解を深める。

また，標本平均の分布の標準偏差である**標準誤差**を計算する関数を作成するとともに，標準誤差の性質（幅の広さ）の理解を深める。

In [1]:
# パッケージの読み込み
import matplotlib.pyplot as plt
from numpy.random import default_rng

rng = default_rng() # rng: Random Number Generator 乱数生成器

# 様々な関数の準備（復習）

もう逆に面倒ではなくなってきたかもしれない。復習として，以下の関数を作成すること。できるかぎり，記憶を頼りに書いてほしい。変数を中心化する関数などを自作しても構わない。

$$
Mean = \frac{1}{n}\sum^n_{i=1}x_i
$$

In [None]:
# 平均
def mean(atai_list):


（標本）分散を計算する関数を書け。分散は以下の数式で計算される統計量である。

$$
Var = \frac{1}{n}\sum_{i = 1}^{n}(x_i-\bar{x})^2
$$

In [None]:
# 標本分散 mean()を使っても良い
def var(atai_list):


分散 var 関数を用いて，（標本）標準偏差を求める関数を書け。

$$
SD = \textstyle\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
$$


In [None]:
# 標本標準偏差。var()を使うこと。
def sd(atai_list):


## 不偏分散・不偏標準偏差

不偏分散を計算する関数を作成せよ。

$$
Var_{unbiased} = \frac{1}{n - 1}\sum_{i = 1}^{n}(x_i-\bar{x})^2
$$

In [None]:
# 不偏分散
def var_unbiased(atai_list):


不偏標準偏差を計算する関数を作成せよ。

$$
SD_{unbiased} = \textstyle\sqrt{\frac{1}{n-1}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
$$


In [None]:
# 不偏標準偏差
def sd_unbiased(atai_list):


# 演習1: 標本分布

母平均・母分散がわかっている母集団から標本抽出・統計量の計算を繰り返す仮想実験を通じて，標本平均の分布の性質について理解を深めてほしい。

In [None]:
# 平均身長 170 cm，SD 7 (分散 49) だとすでにわかっている集団から n 人を抽出する関数
def sampling_height(n):
    return list(rng.normal(170, 7, n))

In [None]:
sampling_height(5)

`sampling_height(n)`関数を使って，`()`の引数n に与える値を変えながら

- 標本抽出を10000回行い，
- 各回の平均値のリストを作成し，
- そのヒストグラムを描くとともに
- 10000個の平均値の標本標準偏差を計算せよ

**以下の性質について確認せよ**

3種類のn を試すことを通して，n が大きくなるほど

- ヒストグラムの横軸の目盛りが小さくなること
- 10000個の平均との標本標準偏差が小さくなること

を確認せよ。

また，平均の標本標準偏差が 7$/\sqrt{n}$ に近い値になっていることを確認せよ。 


## n = 4（データが4個）

## n = 25

## n = 100

# 演習2: 標準誤差

標準誤差を計算する関数を作成せよ。標準誤差は，以下の数式で計算される

$$
SE = \sqrt{\frac{Var_{unbiased}}{n}} = \frac{SD_{unbiased}}{\sqrt{n}}
$$

In [None]:
# 標準誤差 var_unbiased または sd_unbiased を用いること。
def se(atai_list):
    

`sampling_height(n)`関数を使って，`()`の引数n に与える値を変えながら標本抽出を1回行い，その不偏標準偏差と標準誤差を計算せよ。

**※※確認事項※※**

標準誤差が，
- $SD_{unbiased}/\sqrt{n}$ となっていることを確認するとともに，
- n を増やすほど標準誤差が小さくなることを確認せよ。ただし，抽出されたデータの都合でnが小さくても標準誤差が小さくなることがある

## n = 4のとき

In [None]:
# n = 4 の標本抽出を行う


In [None]:
# 不偏標準偏差


In [None]:
# 標準誤差


## n = 25

In [None]:
# n = 25 の標本抽出を行う


In [None]:
# 不偏標準偏差


In [None]:
# 標準誤差


## n = 100

In [None]:
# n = 100 の標本抽出を行う


In [None]:
# 不偏標準偏差


In [None]:
# 標準誤差


# 演習3: 標準誤差の幅の広さ

標準誤差は，平均についての誤差範囲であり，平均±標準誤差の範囲は，（標本抽出・標準誤差の計算を**何度も**繰り返したときに）約67％で母平均を含む（ただし，標本抽出するデータ数が20よりも大きい場合）。

このことを仮想実験によって確認せよ。

## 必要なPythonの文法知識：if文

`if`文は条件分岐が必要な処理を書くときに利用する。以下のように書くことができる

```python
if 条件式:
    条件式の結果が真（True）のときの処理
else:
    条件式の結果が偽（False）のときの処理
```

条件式を定義するためには，論理演算子を利用する。論理演算子はたくさんあるが，以下の3つを紹介する。

- `==` 等しい
- `<` より小さい
- `>` より大きい

In [None]:
x = 1
x == 1 # 1と等しいかどうか

In [None]:
x > 0 # 0より大きいかどうか

In [None]:
x < 0 # 0より小さいかどうか

以下のような書き方もできる

In [None]:
0 < x < 2 # x が0より大きく，2より小さいか

In [None]:
3 > x > 1 # x が3より小さく，1より大きいか（> はその値を含まないので，x > 1 は偽 False となる

## 演習部分

以上のif 文を使って，標本抽出を何度も繰り返した時に，平均 ± 標準誤差 が「真の平均」を含む割合を求めよ。

標本抽出には `sampling_height()` を使うこと。

### ステップ1

標本抽出を1回行い，その平均±標準誤差が母平均 170 を含んでいるかどうかを判定せよ

### ステップ2

if文を使って，誤差範囲が母平均を含んでいるときに`count`に1を足すコードを書け。step1 で計算した結果を用いてよい。ただし，抽出された標本によってはcountの値が変化しないことに留意すること。

In [None]:
count = 0
# 以下にコードを書く


### ステップ3

ステップ1の標本抽出とステップ2のif文 をfor文で10000回繰り返し，平均±標準誤差が母平均 170 を含んでいる回数を計算せよ。また，その回数を繰り返し回数（=10000）で割り，誤差範囲が母平均を含んでいる割合を計算せよ。

データ数が20よりも大きいと，67~68%付近になるはずである。

# 発展問題：標準誤差が $SD/\sqrt{n}$ である理由

標準誤差が $SD/\sqrt{n}$ （このSDは**不偏**標準偏差）である理由は，以下の数学的な事実から導出できる。

- 変数を $a$ 倍すると，分散は元の分散の $a ^ 2$ になる（標準偏差であれば $a$ 倍）。
- 正規分布の再生性

それぞれ証明が存在するが，特に後者については教員の能力を超えるため，割愛する。興味のある人は各自ネットで検索したり，専門書を当たったりしてほしい。

証明はできないが，ここではコンピュータでの数値実験を利用することで，事実が確からしいことを確認する。



## 変数変換による分散の変化

一般に，変数を $a$ 倍すると，分散は元の分散の $a ^ 2$ になる（標準偏差であれば $a$ 倍）。

In [None]:
values = [1, 2, 3, 4, 5, 6, 7]
# values の分散を計算せよ


`values` の各値に任意の値をかけた新しいリストを作成し，分散を計算せよ。計算結果が，元の分散×(かけた値の2乗）であることを確認せよ。 

ちなみに，平均は a 倍となる

## 正規分布の再生性

正規分布の再生性とは，正規分布に従う（無相関な）変数同士を足した結果の値も正規分布に従うということである。より具体的には，$Normal(\mu_1, \sigma^2_1)$ に従う変数 $X_1$ と $Normal(\mu_2, \sigma^2_2)$ に従う変数 $X_2$ の和 $X_1 + X_2$ は $Normal(\mu_1+\mu_2, \sigma^2_1+\sigma^2_2)$ に従う。


In [None]:
# 平均50, 分散100（標準偏差10）の正規分布から10000個のデータを抽出する関数
def sampling_normal():
    return list(rng.normal(50, 10, 10000))

### ステップ1

`sampling_normal()` を使って，10000個のデータからなる数値リストを2つ作成し，それぞれの平均と分散が 50と100に近い値であることを確認せよ

### ステップ2

2つのリストそれぞれの対応する位置の数値の和からなる新しいリストを作成し，その平均と分散がそれぞれ，各リストの平均の和・分散の和に（概ね）一致することを確認せよ。

（補足）分散の和と和の分散があまり一致しないことがある。これは，2つの数値リストの相関が完全な 0 にはならないからである。

## 変数変換 + 正規分布の再生性

正規分布の再生性について，上記では，母数の異なる正規分布に従う変数が2つある場合を取り上げた。同じ母集団，つまり同じ平均・標準偏差の正規分布 $Normal(\mu, \sigma^2)$ に従う n 個の値の和 $X_1 + X_2 + ... + X_n$ は，正規分布

$$
Normal(n \times \mu, n \times \sigma^2) = Normal(\mu + \mu + ... + \mu, \sigma^2 + \sigma^2 + ... + \sigma^2)
$$

に従う。ここで，標本平均 $\bar{X}$ は

$$
\bar{X} = (X_1 + X_2 + ... + X_n) / n
$$

であり，$X_1 + X_2 + ... + X_n$ に 1/n をかけて変数変換したものであると言える。したがって，標本平均 $\bar{X}$ が従う分布は，

$$
Normal((n \times \mu) / n, (n \times \sigma^2) / n ^ 2) = Normal(\mu, \sigma^2 / n)
$$

となる。$\sigma^2 / n$ は標本平均の分布の分散パラメータであり，標準誤差は，標本平均の分布の標準偏差であるから，平方根を計算して $\sigma / \sqrt{n}$ となる。$\sigma$ は母集団分布の標準偏差であり，未知であるから，その推定値である不偏標準偏差で代用すると，標準誤差は $SD / \sqrt{n}$ となる。

In [None]:
# 特にこの内容についてやってもらう演習はありません

# 発展問題2: 収集する標本の大きさ（考察問題）

演習1, 2で見たように，収集するデータの数を増やせば増やすほど，標本平均の標準偏差は小さくなる。つまり，標本抽出ごとの平均（＝標本平均）のブレが小さくなる。標本平均は母平均の推定値であるから，ブレが小さいほど精度の良い推定ができると言える。したがって，できる限りたくさんデータを収集する方が，母平均の推定精度は高くなる。

一方で，データの収集にはコスト（時間的・金銭的）が伴う。データを集めれば集めるほど，収集時間や費用がかさむ。好きなだけ集められるわけではない。

つまり，推定精度と収集コストはトレードオフの関係にある。そのため，データ収集の際には，収集コストを抑えつつ，ある程度の推定精度を保ちつつということを考えることがベストである。

今回は，どの程度の誤差まで許容できるかという観点から，収集するデータの大きさを考えてみたい。

（参考）南風原（2002）心理統計学の基礎 p.133「標準誤差に基づくサンプルサイズの決定」


## 具体的なお題

さて，あなたが通う大学に通う男子（or女子）学生全員の平均身長を知りたいとする。身長は正規分布に従うと仮定する。その母平均，母分散が推定対象であり，未知である。

しかしながら，身長の例であれば，母分散・母標準偏差の上限を想定することができる。成人男性・女性に相当する大学生の身長は，（広く見積もったとして）ほとんどの人が120 ~ 200 cm の間に収まるはずである。正規分布の場合，$\mu$ ± 2$\sigma$の範囲に 95%のデータが含まれることを考慮すると，120 ~ 200の中間である160を平均と仮定すれば，120と200は±40cmの値であり，どれだけ広く見積もっても，母標準偏差は 40 / 2 = 20 は超えないと考えられる。

母標準偏差を20とすると，標本平均の分布の標準偏差（推定のブレ）は 20 /$\sqrt{n}$ である。あなたならどこまでの誤差を許容できるか考え，それに基づき，何人のデータを収集するか答えよ。どこまでのブレを許容するかは，「なぜ平均身長を知りたいか」の目的次第ではあるが，適当なケースを各自考えてみてほしい。特になければ，以下のケースで考えてみてほしい。

「この大学のイメージキャラクターを男女両方作ることになった。せっかくなので，キャラクターのプロフィールを大学に通う男子・女子学生の平均身長にしたい。」

ここに解答を書く（ダブルクリックして編集）