# 2. 信頼区間

## 2.1　平均的ポテトを推定する

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap2/sec1.html
- テーマ
   1. 前章の復習
    - csvファイルの読み込み
    - DataFrameの取扱い
    - 統計量の算出
        - csvのデータ列から直接各種統計量を算出＆配列に入れて表示
        - データフレームに入れて表で表示する(前章までの方法)
- その他
    - 不偏分散を求める演習が2.2章にあるが、まとめて以下のコードで算出する

In [6]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import math

# csvからデータの読み込み & sample_no行削除
# p : potato
dataset_p_num = pd.read_csv('./data/chapter2-1.csv', names=('sample_no', 'p_num') )
dataset_p_num = dataset_p_num.drop('sample_no', axis=1)

# 統計量算出：poteto_num行から直接各統計量を算出＆配列で表示
#p_mean = dataset_p_num.p_num.mean()
#p_var  = dataset_p_num.p_num.var(ddof=0)
#p_var_unbiased  = dataset_p_num.p_num.var(ddof=1)
#p_std  = dataset_p_num.p_num.std(ddof=0)
#p_std_unbiased  = dataset_p_num.p_num.std(ddof=1)
#[p_mean, p_var, p_var_unbiased, p_std]

# 統計量算出：データフレームに入れる場合
p_mean = dataset_p_num.mean()
p_var  = dataset_p_num.var(ddof=0)
p_var_unbiased  = dataset_p_num.var(ddof=1)
p_std  = dataset_p_num.std(ddof=0)
p_std_unbiased  = dataset_p_num.std(ddof=1)

# 上で求めた統計量を纏めて表にする
p_stat_list = pd.concat([p_mean, p_var, p_var_unbiased, p_std, p_std_unbiased], axis=1)
p_stat_list.columns = ['p_mean', 'p_var', 'p_var_unbiased', 'p_std', 'p_std_unbiased']
p_stat_list

Unnamed: 0,p_mean,p_var,p_var_unbiased,p_std,p_std_unbiased
p_num,49.2,3.16,3.511111,1.777639,1.873796


## 2.2　母集団の平均と分散を推定する
- URL : http://kogolab.chillout.jp/elearn/hamburger/chap2/sec2.html
- テーマ
   1. 読み物オンリーページ
   
## 2.3　区間推定／信頼区間
- URL : http://kogolab.chillout.jp/elearn/hamburger/chap2/sec3.html
- テーマ
   1. 信頼区間を求める
       - 平均値、標本標準誤差、データ数、信頼区間を入力することで、最大値と最小値を算出する
   2. sqrtの使用
       - mathを読み込む必要有り
- コードの参考URL : http://www.sat.t.u-tokyo.ac.jp/~oku/20160217/memo.html

In [3]:
# 平均値指定
mean_val = p_mean

# 標本標準誤差を算出
# = 不偏標準偏差 / sqrt(データ数)
sem_val  = (p_std_unbiased / math.sqrt(len(dataset_p_num)))

# 自由度(サンプルサイズから1引いたもの)を指定
# ここでは、データフレームの行数-1を使用する
length   = len(dataset_p_num)-1

# 信頼区間を設定
alpha    = 0.99

# 上記設定での最小値と最大値を算出
min, max       = stats.t.interval(alpha, length, loc=mean_val, scale=sem_val)

# 結果を出力
print('mean value:', mean_val)
print('confidence interval:',  min, max)

mean value: p_num    49.2
dtype: float64
confidence interval: [ 47.27432199] [ 51.12567801]


## 2.4　実践編：平均的チキンを推定する
- URL : http://kogolab.chillout.jp/elearn/hamburger/chap2/sec4.html
- テーマ
   1. 信頼区間を求める(実践編)
       - 入力データ読み込みから信頼区間算出までを通して実施する

In [4]:
# csvからデータの読み込み & sample_no行削除
# c : chicken
dataset_c_weight = pd.read_csv('./data/chapter2-4.csv', names=('sample_no', 'c_weight') )
dataset_c_weight = dataset_c_weight.drop('sample_no', axis=1)

# 信頼区間算出に必要な統計量を算出
c_weight_mean   = dataset_c_weight.c_weight.mean()
c_weight_sem    = dataset_c_weight.c_weight.std(ddof=1) / math.sqrt(len(dataset_c_weight))
c_weight_length = len(dataset_c_weight)-1
c_weight_alpha  = 0.99

# 信頼区間算出
c_weight_list = stats.t.interval(c_weight_alpha, c_weight_length, loc=c_weight_mean, scale=c_weight_sem)

# 結果を出力
print('mean value:', c_weight_mean)
print('confidence interval:', c_weight_list)

mean value: 550.375
confidence interval: (524.25467907616235, 576.49532092383765)


## 2.9　通過テスト
- URL : http://kogolab.chillout.jp/elearn/hamburger/chap2/sec9.html
- テーマ
   1. 平均値と不偏分散から信頼区間を求める
       - stats.t.intervalを使用する
       - 標本標準誤差は自力で求める
   2. 統計学の言葉の使い方(テスト)
       1. 受験した全員のデータのことを統計学の言葉でなんと呼ぶか。
           - 母集団
       2. 統計処理をする500人分のデータのことを統計学の言葉でなんと呼ぶか。
           - 標本
       3. 500人分のデータをでたらめに選ぶことを統計学の言葉でなんと呼ぶか。
           - 無作為抽出
       4. 500人分のデータをでたらめに選ぶと、だいたいどのような度数分布の形をすると予想できるか。
           - 正規分布

In [5]:
# 信頼区間算出に必要な統計量を算出
# データ数=500 / 平均値=65 / 不偏分散=60
practice_alpha = 0.95
practice_length = 500-1
practice_sem = math.sqrt(60/500)
practice_mean = 65

# 信頼区間算出
practice_list = stats.t.interval(practice_alpha, practice_length, loc=practice_mean, scale=practice_sem)

# 結果を出力
print('mean value:', practice_mean)
print('confidence interval:', practice_list)

mean value: 65
confidence interval: (64.319397774337105, 65.680602225662895)
