# 母集団と標本
<pre>
これまでは手元にあるデータの様子を記述するための方法を紹介した。この章では大きな集団から一部を取り出した少数のデータ情報を使って、元の大きな集団の性質について推測する推測統計の基本的な理論を学習する。
</pre>

## 母集団と標本
<pre>
推測統計では、非常に大きなデータ全体（例えば日本国民全体や、ある工場で生産される製品全体に関するデータ）の統計的性質（度数の比率、平均、分散、相関など）についてその対象の一部を取り出したデータから推測するということを行う。この時、元々関心の対象であったデータ全体を<b>母集団</b>、その一部を取り出したデータを<b>標本</b>、母集団から標本を取り出すことを<b>標本抽出（サンプリング）</b>という。また母集団の性質を表す統計的指標（比率、平均、分散、相関係数など）を<b>母数</b>という。
例えば、日本全国の中学生全員が同じ実力テストを受けたときの平均点を知りたいとする。日本全国の中学生全員にテストを受けさせることができれば正確な平均点は出せるが、莫大な時間とお金がかかる。ある程度の正確さを犠牲にしても、一部の生徒のみを対象としたテストで事足りるならそちらの方が価値がある。日本の中学生全員のテストの得点データが母集団で、その平均が母数である。
母集団から選ばれたものが標本である。
</pre>

## 推測統計の分類
<pre>
統計学でいう<b>推測</b>とは何か？
推測統計は<b>推定</b>と<b>検定</b>に大きく分かれる。さらに推定は<b>点推定</b>と<b>区間推定</b>の２つに分類できる。

推定とは具体的な値を用いて、母数の値はOOぐらいだろうという結論を導くもの。
具体的な母数の値を考えるのが推定で、かつ推定の中でも平均が60点であるといった１つの値で推定の結果を表すものを点推定と呼ぶ。
一方「50点から70点」というようなある程度の幅を持った区間で表すのが区間推定である。

検定とは母集団について述べた異なる立場の２つの主張（仮説と呼ばれる）のうちどちらを採択するのかを決めるもの。

先ほどの実力テストを5年後に実施したとして、「平均的な学力は5年前から変化していない」という主張と「平均的な学力は5年前から変化した」という主張のうち、標本を使ってどちらか一方を採択するのが検定である。
</pre>

## 点推定

### 点推定の手順
<pre>
まず母集団から抽出した標本を用いて、母数の点推定を行うにはどのようにすれば良いのか見る。
例えば17歳の日本人男性の平均身長を推定するために10人の17歳男性を標本として抽出したとする。
標本に含まれるデータの個数をサンプルサイズといい、nという記号を使って表現する。n=10の標本から
得られた身長データは下記である。
</pre>

In [2]:
import pandas as pd
japanese_man = pd.DataFrame([165.2, 175.9, 161.7, 174.2, 172.1,163.3, 170.9, 170.6, 168.4, 171.3], columns=['height'])

In [3]:
japanese_man.head()

Unnamed: 0,height
0,165.2
1,175.9
2,161.7
3,174.2
4,172.1


In [4]:
japanese_man.mean() # 平均を出す関数 mean()

height    169.36
dtype: float64

<pre>
これにより、日本人の17歳男性全体の平均身長は169.36cmであると推定された。点推定の手順はこれだけである。
データの平均値を計算するということは
記述統計：データの数値要約するための代表値を求める
推測統計：母平均の点推定を行う
という２つの意味をもつ。
</pre>

## 推定量と推定値
<pre>
一般に標本データから計算されるものを<b>標本統計量</b>（平均や分散など）という。母集団と標本との区別をするために例えば平均だと母平均や標本平均という。
先ほどあげた平均身長を点推定する例では、母平均を推定するために標本平均を計算した。母数を推定するために用いられる標本統計量を、母数の推定量という。標本データを用いて計算された推定量の値を推定値という。
</pre>

|母数|推定量|推定値|
|:---|:--|:--|
|母平均|標本平均|標本データから計算された標本平均の値|
|母分散|不偏分散|標本データから計算された不偏分散の値|
|母標準偏差|不偏分散の正の平方根|標本データから計算された不偏分散の正の平方根の値|
|母相関係数|標本相関係数|標本データから計算された標本相関係数の値|
|母比率|標本比率|標本データから計算された標本比率の値|


## 標本抽出に伴う誤差
<pre>「実際の母数の値にどのくらい近い推定値を得られること」ができるのか、もしくは「推定結果はどのくらい信用できるのか」というのが重要になってくる。例えば母平均を推定するために標本平均を求める。ただ標本は母集団の一部を抽出したものなので母集団の平均と一致するとは限らない。
（1, 2, 6）という３つのデータが含まれている集団からn=2の標本を抽出する場合、組み合わせは全部３つである（下記の表）。
</pre>

|標本|(1, 2)|(1, 6)|(2, 6)|
|:---|:--|:--|:---|
|標本平均の値（推定値）|1.5|3.5|4.0|
|母平均（3.0）とのずれ（標本誤差）|-1.5|0.5|1.0|

<pre>
誤差における許容はケースバイケースであり、大雑把に把握するものは良くても、人命に関わるような重大なものは誤差が少ない方が良い。そのためにもどのような推定値が得られる可能性があるのかということを知る必要がある。この章ではその問いに答えるために重要な概念の<b>標本分布</b>を理解する</pre>