# 推定

- 母数、すなわち母集団のパラメタ推定する
- 母集団分布に正規分布を仮定した場合、パラメタがわかれば母集団分布が推定できることになる

In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%matplotlib inline
%precision 3

'%.3f'

In [2]:
#Create random data
norm_dist = stats.norm(loc=4, scale=0.8)
data = norm_dist.rvs(size=10)
print(data)

[2.617 4.11  1.633 2.736 4.511 4.539 4.262 3.505 4.036 4.824]


### 点推定
- 母集団分布のパラメタをある一つの値として指定する推定方法
- 母平均を推定する場合、標本平均を推定量として使います。 要するに、私たちがやることは、標本から平均値を計算するだけです。
-　母分散は不変分散を推定量として使います。

In [3]:
mu = np.mean(data)
print(mu)

3.677386772034846


In [4]:
sigma_2 = np.var(data, ddof=1)
print(sigma_2)

1.0699727587574877


### 区間推定

- 区間推定とは、推定値に幅を持たせた推定方法のことです。推定値の幅の計算には、確率の考え方を用います。
- 幅を持たせたことで、推定誤差を加味することができます。
- 推定誤差が小さければ、区間推定の幅は狭くなります。
- サンプルサイズが大きくても、やはり区間推定の幅は狭くなります。
- **信頼係数**とは、区間推定の幅における信頼の度合いを、確率で表現したものです。例えば、95%と99%といった通知がよく使われます。
- 同じデータを対象とした場合は、信頼係数が大きいほど、信頼区間の幅は広くなります。
- 信頼限界とは、信頼区間の下限値、上限値のことです。それぞれは下側信頼限界と上側信頼限界


#### 信頼区間の計算方法

- 「(標本平均-母平均)/標準誤差」で計算される$t$値は$t$分布に従います。区間推定の際は、$t$分布のパーセント点（ある確率になる基準値）を用います。信頼係数を95%とするならば、2.5%と97.5%点を計算します。$t$分布に従う変数がこの区間に入る確率は95%と言うことになります。


In [7]:
# 区間推定に必要な情報は、自由度(サンプルサイズ-1)、標本平均、標本誤差も三つです。

#自由度
df = len(data) - 1 

#標本誤差
sigma = np.std(data, ddof=1)
print(sigma)
se = sigma / np.sqrt(len(data))
print(se)

1.0343948756434787
0.3271043807040021


In [11]:
%precision 3
#あとはこの情報を使って、信頼区間を計算します。
interval = stats.t.interval(alpha = 0.95, df=df, loc=mu, scale=se)
print(interval)

(2.9374252542613313, 4.417348289808361)
