# 推定

---

## 理論のまとめ

1. 点推定：ほぼない。母集団分布が正規分布の場合、母平均と母分散を推定して終わり。母平均の推定値＝標本平均、母分散の推定値＝不偏分散
2. 区間推定：実践的、以下詳細

母集団が正規分布に従うとした場合の話……

1. 母平均の区間推定
  1. 母分散既知：標準正規分布を使う
  2. 母分散未知：t分布を使う（標準化の式の母分散を不偏分散にするとt値の計算式になる）
2. 母分散の区間推定
  1. 母平均：χ2乗分布を使う

ここらへんは [統計Web](https://bellcurve.jp/statistics/course/) にきれいにまとまっているのでそちらがおススメ

---

### 用語まとめ

- **信頼係数**：「〇％信頼区間」といったときの「〇％」の部分（次元：なし）
- **信頼区間**：区間推定時に求める、任意の信頼係数を満たす区間のこと（次元：標本と同一次元）
- **信頼限界**：信頼区間の下限値、上限値のこと。それぞれ「下側信頼限界」「上側信頼限界」という。（次元：標本と同一次元）

---

## 実践編

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
%precision 3
%matplotlib inline
fish = pd.read_csv('./samples/3-7-1-fish_length.csv')['length']
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

In [5]:
# 母平均の区間推定（母分散未知）の実践
# > Q: fish の95%信頼区間を求めよ
# > アプローチ
# > - 求めたい値は母平均μ、t値の計算式において、それ以外は算出できるので算出する
# > - 「それ以外」とは、標本平均、標準誤差、自由度である
# ref: https://bellcurve.jp/statistics/course/8972.html
v = len(fish) - 1 # 自由度
sample_mean = np.mean(fish.values) # 標本平均
std_err = np.std(fish, ddof=1) / np.sqrt(len(fish)) # 標準誤差
print('自由度: ', v, '\n標本平均: ', sample_mean, '\n標準誤差: ', std_err)

自由度:  9 
標本平均:  4.187039324504523 
標準誤差:  0.2608259396768776


In [7]:
trusted_interval = stats.t.interval(alpha=0.95, df=v, loc=sample_mean, scale=std_err)
trusted_interval

(3.597010056835825, 4.777068592173221)