### <font color = 'blue'>推定</font>

ここでは、母集団のパラメータ（母数）の推定を行う。<br>
母集団分布に正規分布を仮定した場合、母数がわかれば母集団分布が推定すること可能。<br>

In [1]:
# ライブラリのimport
import numpy as np
import pandas as pd
# 表示桁数の指定
%precision 3
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# ライブラリのimport
import scipy as sp
from scipy import stats
# グラフをjupyter notebook内に表示
%matplotlib inline

In [4]:
#  サンプルサイズを10とする
fish = pd.read_csv("3-7-1-fish_length.csv")["length"]

fish

### <font color = 'blue'>点推定</fonts>

母平均を推定する場合は、標本平均を推定量として用いいる。<br>

In [7]:
mu = sp.mean(fish)
mu

4.187

母分散の推定に関しても、同じように標本から計算された統計量を使用可能。<br>

In [9]:
sigma_2  = sp.var(fish, ddof=1)
sigma_2

0.680

### <font color='blue'>区間推定</font>

区間推定とは、推定値に幅を持たせた推定方法。<br>
推定値の幅の計算には、確率の考え方を用いる。<br>

推定誤差が小さければ、区間推定の幅は狭くなる。<br>
サンプルサイズが大きくても、区間推定の幅は狭くなる。<br>

### <font color = 'blue'>信頼係数・信頼区間</font>

信頼係数とは、区間推定の幅における信頼の度合いを、確率で表現したもの。<br>
例えば、95%や99%といった数値がよく使われる。<br>

信頼区間とは、信頼係数を満たす区間のこと<br>

### <font color='blue'>信頼限界</font>

信頼限界とは、信頼区間の下限値・上限値のこと<br>
各々、下限信頼限界、上限信頼限界と呼ばれる。<br>

### <font color ='blue'>区間推定</font>

区間推定に必要となる情報は、自由度（サンプルサイズ - 1）、標本平均、標準誤差の３つ<br>

In [11]:
# 自由度について求める
df = len(fish) - 1

In [22]:
# 標準誤差
sigma_2  = sp.var(fish, ddof=1)
sigma = sp.sqrt(sigma_2)
se = sp.sqrt(sigma_2) / sp.sqrt(len(fish))
se

0.261

### <font color='blue'>信頼区間を推定する</font>

In [21]:
interval = stats.t.interval(
    alpha = 0.95, df = df, loc = mu, scale = se # 信頼係数, 自由度, 標本平均, 標準誤差
)
interval

(3.597, 4.777)

### <font color = 'blue'>信頼区間の幅を決める要素</font>

In [24]:
se2 = (sigma*10) / sp.sqrt(len(fish))
stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se2)

(-1.713, 10.087)

信頼区間の幅が広いというのは、「真の母平均がどこに位置しているかよく分からないということ」<br>

サンプルサイズを大きくする<br>

In [25]:
df2 = (len(fish) * 10) - 1
se3 = sigma / np.sqrt(len(fish) * 10)
stats.t.interval(
    alpha = 0.95, df = df2, loc = mu, scale = se3
)

(4.023, 4.351)

In [28]:
stats.t.interval(
    alpha = 0.99, df = df, loc = mu, scale = se
)

(3.339, 5.035)

### <font color = 'blue'>区間推定の結果の解釈</font>

信頼係数９５%における「９５%」の意味を、今までは信頼の度合いという曖昧な表現で濁していた。<br>

信頼係数95%の「９５％」は、以下のようにして得られる。

1. 真の母集団分布から標本を抽出<br>
2. 今回と同じやり方で95%信頼区間を計算<br>
3. この試行をたくさん繰り返す<br>
4. 全ての試行のうち、「真の母数」が信頼区間に含まれている割合が95%<br>

In [29]:
be_included_array = np.zeros(20000, dtype="bool")
be_included_array

array([False, False, False, ..., False, False, False])

In [30]:
# 「95%信頼区間を求める」試行を20000回繰り返す
# 信頼区間が母平均（４）を含んでいればTrue
np.random.seed(1)
norm_dist = stats.norm(loc=4, scale=0.8)
for i in range(0, 20000):
    sample = norm_dist.rvs(size=10) # サンプルから10個取り出す
    df = len(sample) - 1 # 自由度
    mu = sp.mean(sample) # 平均
    std = sp.std(sample, ddof = 1) # 
    se = std / sp.sqrt(len(sample))
    interval = stats.t.interval(0.95, df, mu, se)
    if(interval[0] <= 4 and interval[1] >=4):
        be_included_array[i] = True

In [31]:
sum(be_included_array) / len(be_included_array)

0.948