 - [データ分析と統計処理の基本的な手順の整理 (4) - Qiita](http://qiita.com/ynakayama/items/09b8a09f79ebaff24ea8)
 - [Pythonで正規分布の平均値の信頼区間を計算する方法](http://www.sat.t.u-tokyo.ac.jp/~oku/20160217/memo.html)
 - [scipy.stats - scipyの統計関数群のAPI - keisukeのブログ](http://kaisk.hatenadiary.com/entry/2015/02/17/192955)

# 区間推定 - 比率

### 2) 無作為に選んだ250人の大学生について運転免許をもっているかどうか調査したところ、90人がもっていた。信頼係数95%で、運転免許をもっている大学生の割合の信頼区間を求めよ。

In [67]:
import numpy as np
import math
from scipy.stats import norm, t, chi2 # 正規分布, t分布, カイ二乗分布
from scipy import stats

n = 250 # 標本の大きさ
x = 90 # 運転免許をもっている大学生の数
alpha = 0.95 # 信頼区間

p = x/n #標本比率

a, b = norm.interval(alpha=alpha, loc=0, scale=1)
#=> (-1.95996398,  1.95996398)

p + np.array([a, b]) * np.sqrt(p*(1-p)/n)

array([ 0.30049968,  0.41950032])

### 3) あるテレビ番組を見た400人について調査したところ、そのうちの100人がその番組がおもしろかったと答えた。信頼係数99%で、その番組がおもしろかったと思っている人の割合の信頼区間を求めよ。

In [68]:
n = 400 # 標本の大きさ
x = 100 # おもしろかったと答えた人の数
alpha = 0.99 # 信頼区間

p = x/n # 標本比率

a, b = norm.interval(alpha=alpha, loc=0, scale=1)

p + np.array([a, b]) * np.sqrt(p*(1-p)/n)

array([ 0.19423166,  0.30576834])

## 比率の標本の大きさ

### 8) 世論調査で、ある政策に対して反対の意見をもっている人の割合を誤差3%以内、信頼係数99%で調査するためには、標本の大きさをいくらにすればよいか。

In [69]:
E = 0.03
alpha = 0.99
P = 0.5

a,b = norm.interval(alpha=alpha, loc=0, scale=1)
arr = np.abs([a,b])

((arr[0]/E) ** 2) * P * (1-P)

1843.0268336170041

---

# 区間推定 - 平均値

### 11) 分散${ \sigma  }^{ 2 }=25$の母集団からn=200の標本を取り出したところ、その平均が$\bar { x } =20$であった。このとき、母集団平均を信頼係数95%で区間推定せよ。

In [70]:
population_var = 25 # 母分散
n = 200 #  標本数
sample_mean = 20 # 標本平均値
alpha = 0.95 # 信頼係数

# 母分散が既知で大標本なので正規分布で区間推定
a, b = norm.interval(alpha=alpha, loc=0, scale=1)

sample_mean + np.array([a, b]) * np.sqrt(population_var/n)

array([ 19.30704809,  20.69295191])

### 12) ある機械装置を組み立てるテストを6回やったところ、それぞれ12, 13, 17, 13, 15, 14分かかった。この装置を組み立てるのに必要な平均時間を信頼係数99%で区間推定せよ。

In [71]:
data = np.array([12,13,17,13,15,14])

alpha = 0.99 # 信頼係数
n = data.size # 標本数

# 標本平均
sample_mean = data.mean()
# 標本標準偏差(n-1で割った)を標本数のルートで割った値
e = stats.sem(data)
# 自由度
df = n - 1

# 母分散が未知で小標本なのでt分布で区間推定。ただし、母集団は正規分布とする。
t.interval(alpha, df, loc=sample_mean, scale=e)

(11.055339110425807, 16.944660889574195)

### 13) ある実験を試みたところ、25%の過負荷電流で１０本のヒューズが飛んでしまうまでの平均時間は9.2分で、標準偏差$\widehat { \sigma  } =\sqrt { \cfrac { 1 }{ n-1 } \sum { { \left( { x }_{ i }-\bar { x }  \right)  }^{ 2 } }  } $は2.5分であった。25%の過負荷で、この種類のヒューズが飛ぶまでの平均時間を、信頼係数99%で区間推定せよ。

In [72]:
n = 10 #標本数
sample_mean = 9.2 # 標本平均
sample_std = 2.5 # 標本標準偏差

alpha = 0.99 # 信頼係数
df = n -1 # 自由度
e = sample_std/math.sqrt(n)

# 母分散が未知で、小標本なのでt分布で区間推定する。ただし、母集団は正規分布とする。
t.interval(alpha, df, loc=sample_mean, scale=e)

(6.6307794149847608, 11.769220585015237)

### 19) ある地区で、10世帯について１ヶ月の電気料金を調査したところ、次の結果を得た。この地区の１世帯あたりの平均電気料金を信頼係数90%で区間推定せよ。

5900, 4300, 4200, 3800, 5200, 4500, 5100, 6200, 4700, 4100

In [73]:
data_arr = np.array([5900, 4300, 4200, 3800, 5200, 4500, 5100, 6200, 4700, 4100])

n = data_arr.size #標本数
alpha = 0.9 # 信頼係数

# 標本平均
sample_mean = data_arr.mean()
# (n-1で割った)標本標準偏差を標本数のルートで割った値
e = stats.sem(data_arr)
# 自由度
df = n - 1

# 母分散が未知で小標本なのでt分布で区間推定。ただし、母集団は正規分布とする。
t.interval(alpha, df, loc=sample_mean, scale=e)

(4341.9254913335062, 5258.0745086664938)

---

# 区間推定 - 分散

### 25) 19)のデータから、分散の区間推定をせよ。ただし信頼係数を95%とする。

In [112]:
electricity_charges = np.array([5900, 4300, 4200, 3800, 5200, 4500, 5100, 6200, 4700, 4100])

n = electricity_charges.size # 標本数
df = n - 1 # 自由度
alpha = 0.95 # 信頼係数
# 標本分散(不偏分散)
sample_var = electricity_charges.var(ddof=1)

a, b = chi2.interval(alpha, df)

np.array([(df * sample_var)/a,(df * sample_var)/b])

array([ 2081181.25183085,   295435.45184846])

---
# 適合度