[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snishiyama/intro-psych-stats-exercises/blob/main/09-random-sampling.ipynb)

# 第9回演習の概要

乱数生成用のパッケージを用いて，頻度による確率が想定する理論値への収束や，無作為標本抽出の統計的な性質を体験する。

In [None]:
# パッケージの読み込み
import matplotlib.pyplot as plt
from numpy.random import default_rng

rng = default_rng() # rng: Random Number Generator 乱数生成器

# 様々な関数の準備（復習）

毎度毎度，面倒かもしれないが，復習として，以下の関数を作成すること。できるかぎり，記憶を頼りに書いてほしい。変数を中心化する関数などを自作しても構わない。

$$
Mean = \frac{1}{n}\sum^n_{i=1}x_i
$$

In [None]:
# 平均
def mean(atai_list):


$$
SD = \textstyle\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
$$


In [None]:
# 標準偏差。mean()を使っても良い
def sd(atai_list):


# 演習1: 頻度による確率の定義（コイン投げの仮想実験）

試行回数が多いほど理論値に収束することを体験する

### ステップ1

以下に定義されている`coin()`関数を実行すると，()内に指定した回数だけコインを投げるという仮想実験を行うことができる。

In [None]:
# n回コイン投げしたときの表（1）裏（0) の出方をシミュレーションする関数
def coin(n):
    return list(rng.binomial(1, 0.5, n))

すぐ下のコードを何回か実行して，毎回，出方や表裏の出る回数が異なることを確認せよ。実行結果は`1`か`0`で構成される数値リストになる。ここでは`1`を表，`0`を裏と考えればよい。

In [None]:
# 10回コイン投げしたときの表裏の出方
coin(10)

### ステップ2

10回コインを投げたときに表の出た割合を計算せよ。何度も実行して，結果が変動すること，また，想定される 0.5 には必ずしもならないことを確認せよ。

ヒント：今回は表を1, 裏を 0 にしているので，最初に定義した関数のどれかを使って簡単に計算できる

In [None]:
kekka10 = coin(10)
# 以下に表の割合を計算するコードを書く


`coin()` に指定する n （= コインを投げる回数）を増減させて，コードを何度も実行し，表の出る割合の変動がどのように変化するかを確認せよ。かなり大きい値を入れてみてほしい（10000, 100000など）。

In [None]:
# n = 1000


In [None]:
# n = 10000


In [None]:
# n = 100000


# 演習2の前に: for文での繰り返しに関する追加事項

以降の処理に必要になるので，for文の新しい使い方を一つ紹介する。

これまでのfor 文の使い方では，あるリストの各要素に対して同じ処理を行うために，`for youso in ...` の `...` にそのリストを指定し，`youso` をforループの処理に登場させていた。

一方で，各要素に同じ処理を施したいリストはないが，同じ処理を決まった回数だけ繰り返したいというケースもある（このあとにやってもらうこと）。そういった場合にも，以下のような for文 を書くことで，同じ処理を何度も繰り返すことができる。

```python
for i in range(繰り返したい回数):
    なにか処理
```

例えば，以下のコードでは，`range()`に指定した `10` 回だけ，1を足している。

In [None]:
goukei = 0
for i in range(10):
    goukei = goukei + 1
goukei

これまでのfor 文と同様に，for の直後に置く変数名は何でもよく，必ずしも`i` である必要はない。

ここで注目してほしいのは，for の直後の変数名（ここでは `i`）が for ループの処理に登場していないことである。これでも，コードは問題なく，`range()`に指定した回数分だけ動く。

# 演習2: 標本抽出の仮想実験

全体の平均と標準偏差がすでに明らかな集団から標本抽出する，ということを仮想的に実験する。現実的にはあり得ない設定ではあるが，これを通して，抽出された標本の平均や標準偏差がブレるということを体験してほしい。

In [None]:
# 平均身長 170 cm，SD 7 だとすでにわかっている集団から30人を抽出する関数
def sampling_height():
    return list(rng.normal(170, 7, 30).astype('float16'))

すでに用意してある`sampling_height()`を実行すると，30人分の身長（のような）データが得られる。

In [None]:
sampling_height()

## ステップ1


標本抽出したデータの平均と標準偏差を計算するコードを書け

In [None]:
# 標本抽出
# sampling_height()の実行結果に変数名をつければよい


In [None]:
# 平均


In [None]:
# 標準偏差


## ステップ2

ステップ1で行った処理を10回繰り返すコードを書け。ただ繰り返すだけでなく，最初に新しく空のリストを作成しておき，各回の平均をそのリストに追加する処理も合わせて書くこと。

つまり，標本抽出を10回繰り返した時の各回の平均が保存されたリストを作成するということである。

上で説明した`for + range`を使えば良い。

In [None]:
# 標本抽出を10回


## ステップ3

標本抽出回数を10000回に変更して，同じことを実行せよ

In [None]:
# 標本抽出を10000回


10000個の標本平均について，

- ヒストグラムを書け
- 平均と標準偏差を計算せよ

In [None]:
# ヒストグラム


In [None]:
# 標本平均の平均（170くらいになる）
mean(samples)

In [None]:
# 標本平均の標準偏差（1.27くらいになる）
sd(samples)

標本平均の平均が，全体平均に近い値になることを確認してほしい。また，標本平均の標準偏差に $\sqrt{30}$ をかけると，全体の標準偏差（7）に近い値になることも確認してほしい。詳細は次回以降の授業で説明する。

In [None]:
# 標本平均の標準偏差 に 30の平方根を掛ける


# 発展問題1: 演習1の続き

コイン投げを10000回行った結果について，10回目以降の各回までに表が出た割合を計算し，折れ線グラフとして図示せよ。横軸に試行回数，縦軸に割合を配置すること。完成するのは，授業中に登場した図である（実行ごとに異なった結果になるので，完全には一致しないことに注意）。


## ステップ1

コイン投げを10000回行った結果を変数に入れる

## ステップ2

10回目以降の各回までに表が出た割合を計算した，新しいリストを作成する。for文を使えば良い。合わせて，横軸に使う試行回数の数値リストも作成する

## ステップ3

ステップ3で作成したリストを用いて，折れ線グラフを作成する

# 発展問題2: 演習1 × 演習2

コイン投げを100回するケースについて，演習2と同様に，

- 100回のコイン投げを10000回行い，
- 各100回投げの表の割合が入ったリストを作成し
- 10000個の表の割合のヒストグラムを書くとともに
- 平均を計算せよ