# ライブラリのインポート

In [1]:
# # 配列処理や数値計算
import numpy as np

# 科学計算処理
import scipy as sp
from scipy import stats

# Scikit-Learnから線形モデルをインポート
from sklearn import linear_model

# データ加工
import pandas as pd
from pandas import Series, DataFrame

# 可視化
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
sns.set()

import math

# ランダムシード値の固定
np.random.seed(0)

# 母平均の推定

| 母標準偏差 | 母集団正規性 | n | 推定手法 |
|----|----|----|----|
| 既知 | 分布はなんでもよい | いくつでもよい | z推定 |
| 未知 | 正規分布 | 30以上 | z推定 |
| 未知 | 正規分布 | 30未満 | t推定 |
| 未知 | 不明 | 30以上 | t推定 |

### 前回の授業の例題2
全国の歯科医院の数は約7万施設である．その中から1000施設を無作為に抽出し，そこの施設で1年間に診察した歯の疾患の患者数を調べた．標本平均は26.3人，標本標準偏差は20.0人であった．
歯科医院7万施設における歯の疾患患者数を信頼度99％で求めよ．

In [6]:
# 信頼度
alpha = 0.99
# 標本サイズ
n = 1000
# 標本平均
sample_mean = 26.3
# 標本標準偏差
sample_deviation = 20.0
# 標準誤差 SE
se = sample_deviation / math.sqrt(n)

# 信頼度から求まる定数
# ｚ推定の場合の定数
# z = stats.norm.ppf(1-(1-alpha)/2)
# ｔ推定の場合の定数
# t = stats.t.ppf(1-(1-alpha)/2, n-1)

# bottom = sample_mean - t * se
# up = sample_mean + t * se

# ｔ分布による推定
bottom, up = stats.t.interval(alpha=alpha, loc=sample_mean, scale=se, df=n-1)
print(bottom, '< x <', up)

24.667784290560867 < x < 27.932215709439134


# 母比率の推定

### 例題1
日本に血液型がAB型の人がどれくらいいるかを推計するために，無作為に2,000人を抽出しアンケート調査を行った． アンケート調査の結果，AB型の割合は9%でした．信頼度95％で日本の血液型AB型の人の割合を推定しなさい．





In [17]:
# 信頼度
alpha = 0.95
# 標本サイズ
n = 2000
# 標本比率
p = 0.09
# 標準誤差
se = math.sqrt(p * (1 - p)) / math.sqrt(n)
# 信頼度から求まる定数
z = stats.norm.ppf(1 - (1 - alpha) / 2)

# 手計算
# bottom = p - z * se
# up = p + z * se

# 関数を使う（ｚ推定）
bottom, up = stats.norm.interval(alpha=alpha, loc=p, scale=se)

# 関数を使う（二項分布：nが十分大きいとき)
bottom_binom, up_binom = stats.binom.interval(alpha=alpha, n=n, p=p, loc=0)

print(bottom, '< x <', up)
print(bottom_binom/n, '< x <', up_binom/n)

0.07745776181427635 < x < 0.10254223818572364
0.0775 < x < 0.1025


### 例題2
東京都に居住する有権者の内閣支持率を調べるためにn=400の標本調査を行いました．その結果内閣を支持する人の割合は30%でした．信頼度95%で東京都に居住する有権者の内閣支持率を推定しなさい．

In [18]:
# 信頼度
alpha = 0.95
# 標本サイズ
n = 400
# 標本比率
p = 0.3
# 標準誤差
se = math.sqrt(p * (1 - p)) / math.sqrt(n)
# 信頼度から求まる定数
z = stats.norm.ppf(1 - (1 - alpha) / 2)

# 関数を使う（ｚ推定）
bottom, up = stats.norm.interval(alpha=alpha, loc=p, scale=se)

print(bottom, '< x <', up)

0.2550915834072897 < x < 0.34490841659271027


# 有限母集団での推定
### 例題3
2年生全体の血液型がAB型の割合を推定してみる．

N = 67

* A:20
* B:12
* AB:5
* O:14


In [22]:
# 信頼度
alpha = 0.95
# 母集団サイズ
N = 67
# 標本サイズ
n = 51
# 標本比率
p = 5 / n
# 標準誤差
se = math.sqrt(p * (1 - p)) / math.sqrt(n)
# 信頼度から求まる定数
z = stats.norm.ppf(1 - (1 - alpha) / 2)
# 有限母集団における補正項
ct = math.sqrt((N-n)/(N-1))

# 手計算
bottom = p - z * se * ct
up = p + z * se * ct

# 関数を使う（ｚ推定）
# bottom, up = stats.norm.interval(alpha=alpha, loc=p, scale=se)

print(bottom * N, '< x <', up * N)

3.8763515043368217 < x < 9.260903397623963


# サンプルサイズの決め方
### 例題4
東京都の小学生のお年玉金額の平均値を推計する場合，何人の生徒を調査すればよいか．平均値は 30,000円，標準偏差は 15,000円，信頼区間 E=2,000円，信頼度95%と想定して求めよ．

In [29]:
# 信頼度
alpha = 0.95
# 標本標準偏差
s = 15000
# 信頼区間
E = 2000
# 定数
z = stats.norm.ppf(1 - (1 - alpha) / 2)

ｎ = s**2 / (E / z)**2

# もしくはべき乗関数を使って
n = pow(s / (E / z), 2)

print(n)

216.08205866404455
