# 推測統計の基本
#### 推測統計
一部の Data から全体の統計的性質を推測する枠組み

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
from IPython.display import display

np.set_printoptions(precision=3)
pd.options.display.precision = 3

In [4]:
df = pd.read_csv('../data/ch4_scores400.csv')
scores = np.array(df['点数'])
display(scores[:10])

array([76, 55, 80, 80, 74, 61, 81, 76, 23, 80])

## 母集団と標本
推測統計では観測対象全体の統計的性質を、その観測対象の一部分のみを使って推測する。
- 母集団（population）: 推測したい観測対象全体のこと
- 標本（sample）: 推測に使う観測対象の一部分のこと
- 標本抽出（sampling）: 母集団から標本を取り出すこと
- 標本の大きさ（Sample size）: 標本の大きさ
- 標本統計量: 標本から計算される平均や分散、相関係数などの総称
- 母数: 母集団の平均や分散、相関係数などの総称
- 推定量（estimator）: ex). 標本平均で母平均を推測するときの母平均の標本平均のこと。
- 推定値（estimate）: 実際に標本の Data を用いて計算した結果

### 標本の抽出方法
#### 無作為抽出（random sampling）
 Random に標本を抽出する方法。無作為抽出は標本の抽出に偏りをなくす方法であって、その結果偏りのある Data が得られる可能性もある。
 しかし、そこでもう１回無作為抽出をやり直すと結果として作為的な抽出になってします。推測統計では無作為抽出の結果、偏りのある標本が得られる可能性も含めて推測を行なう。

#### 復元抽出（sampling with replacement）
複数回同じ標本を選ぶ抽出方法

#### 非復元抽出（sample without replacement)
同じ標本は一度しか選ばない方法

In [12]:
display(np.random.choice([1, 2, 3], 3))

array([3, 1, 3])

In [24]:
display(np.random.choice([1, 2, 3], 3, replace=False))

array([3, 2, 1])

乱数の Seed を導入する。
※ 乱数の Seed: 発生させる乱数の元となる数字。これを定めておくと毎回同じ乱数を得ることができる

In [29]:
np.random.seed(0)
display(np.random.choice([1, 2, 3], 3))

array([1, 2, 1])

Seed を設定することで毎回同じ乱数を得ることができ、Code の再現性を保つことができる。

In [34]:
np.random.seed(0)

# 標本平均
sample = np.random.choice(scores, 20)
sample.mean()

70.4

In [35]:
# 母平均
scores.mean()

69.53

無作為抽出は行なうたびに得られる標本平均も毎回異なる

In [36]:
for i in range(5):
    sample = np.random.choice(scores, 20)
    print(f'{i+1}回目の無作為抽出で得た標本平均', sample.mean())

1回目の無作為抽出で得た標本平均 72.45
2回目の無作為抽出で得た標本平均 63.7
3回目の無作為抽出で得た標本平均 66.05
4回目の無作為抽出で得た標本平均 71.7
5回目の無作為抽出で得た標本平均 74.15


標本平均は大体70点前後になっているが、それなりにばらつきもある様子。