In [1]:
# === 推定 ===

In [3]:
# 必要なライブラリの読み込み
import numpy as np
import scipy as sp
import pandas as pd
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3
%matplotlib inline

In [4]:
# 分析の対象となるデータの読み込み
fish = pd.read_csv('../statistics_python/3-7-1-fish_length.csv')["length"]
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

In [5]:
# === 点推定 ===

# 母平均の点推定を実装します。
# 標本平均を計算するだけです
mu = sp.mean(fish)
mu

4.187

In [6]:
# 標本平均が4,187だったので母平均も4.187だろうと推定します
# これが点推定です

In [7]:
# 母分散の点推定としては、不偏分散を使います
sigma_2 = sp.var(fish, ddof = 1)
sigma_2

0.680

In [26]:
# === 区間推定 ===

# 区間推定に必要な情報は自由度(サンプルサイズ　−　１)、標本平均、標準誤差の３つです。
#標本平均はすでに計算済みなので残りの２つを計算します

# 自由度。自由度という名前は気にせず、単にサンプルサイズから１を引けば良いです。
df = len(fish) - 1
df

9

In [27]:
# 次に標準誤差を求めます。
sigma = sp.std(fish, ddof = 1)
se = sigma / sp.sqrt(len(fish))
se

0.261

In [28]:
# 信頼区間の計算

# stats.t.interval関数を使い、引数には信頼係数alpha, 自由度df, 標本平均loc, 標準誤差scaleを指定します
# 出力の１つ目が下側信頼限界、２つ目が上側信頼限界となります

interval = stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se)
interval

(3.597, 4.777)

In [29]:
# ９５％の信頼区間は3.597から4.777になりました

In [30]:
# === 信頼区間の幅を決める要素 ===
# 標本における分散が大きければ「データが平均値から離れている→平均値をあまり信用できない」ということになるので信頼期間の幅が広くなります

# 試しに標本標準偏差を１０倍にしてから９５％信頼区間を計算してみましょう
se2 = (sigma * 10) / sp.sqrt(len(fish))
stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se2)

(-1.713, 10.087)

In [32]:
# 信頼区間の幅が広いというのは「真の母平均がどこに位置しているのかがよくわからない」ということだと解釈すれば直感によく合う結果です。
# 逆にサンプルサイズが大きくなると標本平均を信頼できるようになるため、信頼区間は狭くなります。

# サンプルサイズを１０倍にして計算します
# サンプルサイズが大きくなると、自由度が大きくなり、標準誤差が小さくなることに注意します。
df2 = (len(fish) * 10) - 1
se3 = sigma / sp.sqrt(len(fish) * 10)
stats.t.interval(alpha = 0.95, df = df2, loc = mu, scale = se3)

(4.023, 4.351)

In [34]:
# 全く同一のデータであった場合には信頼係数が大きいほど、安全を見込んで信頼区間の幅は広くとられています。
# 99%区間は以下のように計算されます。９５％信頼区間よりも幅が広くなっていることに注目してください。

stats.t.interval(alpha = 0.99, df = df, loc = mu, scale = se)

(3.339, 5.035)

In [48]:
# === 区間推定の結果の解釈 ===

# 信頼区間が母平均(4)を含んでいればTrueをとるbool型の変数を用意
# 試行回数が２００００回なのでその分の入れ物を用意
be_included_array = np.zeros(20000, dtype = 'bool')
be_included_array

array([False, False, False, ..., False, False, False], dtype=bool)

In [51]:
# シミュレーションの実行

# 「95%信頼区間を求める」試行を２００００回繰り返す
# 信頼区間が母平均(4)を含んでいればTrue
np.random.seed(1)
norm_dist = stats.norm(loc = 4, scale = 0.8)
for i in range(0, 20000):
    sample = norm_dist.rvs(size = 10)
    df = len(sample) - 1
    mu = sp.mean(sample)
    std = sp.std(sample, ddof = 1)
    se = std / sp.sqrt(len(sample))
    interval = stats.t.interval(0.95, df, mu, se)
    if (interval[0] <= 4 and interval[1] >= 4):
        be_included_array[i] = True

In [52]:
# 信頼区間が母平均(4)を含んでいた割合を求めます。およそ０．９５となります。
sum(be_included_array) / len(be_included_array)

0.948