In [7]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns
%precision 3

'%.3f'

In [5]:
fish = pd.read_csv("3-7-1-fish_length.csv")["length"]
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

In [9]:
#　母平均　点推定：標本平均が4.187なのでぼ平均も4.187
mu = sp.mean(fish)
mu

4.187

In [11]:
# 母分散　点推定
sigma_2 = sp.var(fish, ddof = 1)
sigma_2

0.680

# 区間推定：
```
推定値に幅をもたせた推定方法のこと
自由度(サンプルサイズ　- 1), 標本平均l, 標準誤差(標本平均の標準偏差)
```

In [14]:
#自由度
df = len(fish) - 1
df

9

In [16]:
#標準誤差：標本平均の標準偏差
sigma = sp.sqrt(sigma_2)
se = sigma / sp.sqrt(len(fish))
se

0.261

```
信頼区間の計算
stats.t.interval(alpha(信頼係数), df(自由度), loc(標本平均), scale(標準誤差))
```

In [21]:
interval = stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se)
interval

(3.597, 4.777)

```
95%信頼区間は3.597 から　4.777となりました
```

In [22]:
t_975 = stats.t.ppf(q = 0.975, df = df)
t_975

2.262

In [23]:
#下側信頼限界:
lower = mu - t_975 * se
lower

3.597

In [24]:
upper = mu + t_975 * se
upper

4.777

In [28]:
se2 = (sigma*10) / sp.sqrt(len(fish))
stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se2)

(-1.713, 10.087)

```
標本標準偏差を10倍に増やして信頼区間を求めると、
信頼区間がかなり広くなっている。
→　信頼区間の幅が広いと言うことは真の母平均がどこに位置しているかがよくわからないことを意味している。

逆にサンプルサイズが大きくなれば、標本平均を信頼できるようになるため、信頼区間は狭くなります。
```

In [31]:
df2 = (len(fish)*10) - 1
se3 = sigma / sp.sqrt(len(fish)*10)
stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se3)

(4.000, 4.374)

In [32]:
# 同一データの場合、信頼係数が大きいほど、安全を見込み信頼区間は広く取られる。
stats.t.interval(alpha = 0.99, df = df, loc = mu, scale = se)

(3.339, 5.035)

In [34]:
be_included_array = np.zeros(20000, dtype = "bool")
be_included_array

array([False, False, False, ..., False, False, False], dtype=bool)

In [47]:
#　95%信頼区間を求める試行を20000回繰り返す
# 信頼区間がb平均を含んでいればTrue
np.random.seed(1)
norm_dist = stats.norm(loc = 4, scale = 0.8)
for i in range(0,20000):
    #標本抽出
    sample = norm_dist.rvs(size = 10)
    #自由度
    df = len(sample) - 1
    #平均
    mu = sp.mean(sample)
    #標準偏差
    std = sp.std(sample, ddof = 1)
    #標準誤差
    se = std / sp.sqrt(len(sample))
    interval = stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se)
    if(interval[0] <= 4 and interval[1] >= 4 ):
                       be_included_array[i] = True

In [48]:
sum(be_included_array) / len(be_included_array)

0.948