# 数理統計学 10節解答

## 使うモジュールのインポート
この節では、`scipy.stats.norm, scipy.stats.t, scipy.stats.chi2`を使う。  
それぞれが、正規分布、t分布、カイ自乗分布に対応している。  
`scipy.stats.norm.interval(alpha, loc, scale)`は$\mathcal{N}\left(\text{loc}, \text{scale}\right)$の両側$\alpha$点を出力する。  
詳細については、[stats.norm](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html), [stats.t](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html), [stats.chi2](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)を参照。

In [1]:
import numpy as np
from scipy import stats

## 10.1

In [2]:
samples1 = np.array([70, 69, 72, 74, 66, 68, 69, 70, 71, 69, 73, 72, 68, 72, 67])
samples2 = np.array([69, 72, 71, 74, 68, 67, 72, 72, 72, 70, 75, 73, 71, 72, 69])
diff = samples1 - samples2
n = len(diff)
t_975 = stats.t.ppf(0.975, n-1)
t = np.mean(diff)*np.sqrt(n/np.var(diff, ddof=1))

print('|T|: ', np.abs(t))
print('t_975: ', t_975)
if np.abs(t) > t_975:
    print('棄却')
else:
    print('採択')

|T|:  3.011934408137695
t_975:  2.1447866879169273
棄却


## 10.2

In [3]:
mu_1 = np.mean(samples1)
mu_2 = np.mean(samples2)
sigma2 = ((n-1)*np.var(samples1, ddof=1) + (n-1)*np.var(samples2, ddof=1)) / (2*n-2)
t_975 = stats.t.ppf(0.975, 2*n-2)
t = (mu_1 - mu_2)/np.sqrt((2/n)*sigma2)

print('|T|: ', np.abs(t))
print('t_975: ', t_975)
if np.abs(t) > t_975:
    print('棄却')
else:
    print('採択')

|T|:  1.3795305076179911
t_975:  2.048407141795244
採択


## 10.3

In [4]:
sigma_1 = np.var(samples1, ddof=1)
sigma_2 = np.var(samples2, ddof=1)
f = sigma_1 / sigma_2
f_left = stats.f.ppf(0.05, n-1, n-1)
f_right = stats.f.ppf(0.95, n-1, n-1)

print('F: ',f)
print('F_left, F_right: ', f_left, f_right)
if f < f_left or f > f_right:
    print('棄却')
else:
    print('採択')

F:  1.0925196850393701
F_left, F_right:  0.40262094298131085 2.483725741128222
採択


## 10.4

In [5]:
sample1 = [150, 163, 161, 130, 147, 145, 138, 168, 164, 147]
sample2 = [145, 134, 115, 122, 101, 147, 130, 112, 126, 129]
n = len(sample1)
mu_1 = np.mean(sample1)
mu_2 = np.mean(sample2)
sigma2 = (n-1) * (np.var(sample1, ddof=1) + np.var(sample2, ddof=1)) / (2*n-2)
t_975 =  stats.t.ppf(0.975, 2*n-2)
t = (mu_1-mu_2) / np.sqrt(sigma2*2/n)


print('|T|: ', np.abs(t))
print('t_975: ', t_975)
if np.abs(t) > t_975:
    print('棄却')
    print('差があると言える')
else:
    print('採択')
    print('差があると言えない')

|T|:  4.207147835294249
t_975:  2.10092204024096
棄却
差があると言える


## 10.5

In [6]:
sigma_1 = np.var(sample1, ddof=1)
sigma_2 = np.var(sample2, ddof=1)
f = sigma_2 / sigma_1
f_left = stats.f.ppf(0.05, n-1, n-1)
f_right = stats.f.ppf(0.95, n-1, n-1)

print('F: ',f)
print('F_left, F_right: ', f_left, f_right)
if f < f_left or f > f_right:
    print('棄却')
    print('同じと言えない')
else:
    print('採択')
    print('同じと言える')

F:  1.339685530034055
F_left, F_right:  0.31457490615130795 3.178893104458269
採択
同じと言える


## 10.6

In [7]:
m = 100
n = 200
mu_1 = 16/100
mu_2 = 50/100

t = (mu_1 - mu_2) / np.sqrt(mu_1*(1-mu_1)/m + mu_2*(1-mu_2)/n)
z = stats.norm.ppf(0.975)

if abs(z) > t:
    print('棄却')
    print('差があると言える')
else:
    print('採択')
    print('差がないと言えない')

棄却
差があると言える


## 10.7
まずは棄却域を求める。  
$\mu_1=160 < \mu_2=165$であるから、有意水準5%の片側検定を行う。  
この棄却域は$\bar{X} > \mu_1 + \frac{\sigma}{n} z_{0.05}$である。  
第二種の誤りは、$\mu = \mu_2$である時に、仮説が棄却されない誤りなので、正規分布 $\mathcal{N}(\mu_2,\sigma^2)$ の分布関数を$F$とすると$\beta=F(\mu_1+\frac{\sigma}{n} z_{0.95})$となる。  
この値を$n=1$から順に計算していくことによって、初めて$\beta < 0.05$となる$n$を見つける。

In [11]:
# 棄却域を求める
def calculate_beta(n):
    right = stats.norm.ppf(0.95, 160, np.sqrt(15/n))
    beta = stats.norm.cdf(right, 165, np.sqrt(15/n))
    return beta

n = 1
while(calculate_beta(n) > 0.05):
    n += 1
print('the answer is ', n)

the answer is  7


## 10.11


In [19]:
n_list = np.array([120, 50, 40, 10])
freq_list = np.array([9, 3, 3, 1])
pi_list = freq_list / np.sum(freq_list)
n = np.sum(n_list)
k = len(n_list)

chi = np.sum((n_list-n*pi_list)**2 / (n*pi_list))
chi_a = stats.chi2.ppf(0.95, k-1)

print('カイ自乗統計量:', chi)
print('95%点:', chi_a)
if chi > chi_a:
    print('正しくない')
else:
    print('正しい')

カイ自乗統計量: 3.0303030303030303
95%点: 7.814727903251179
正しい


## 10.12
$p$の推定量として、 $\hat{p} = \frac{1}{4}\bar{X}$ を用いる。  
ここで $\pi_i(\hat{p}) = {}_4\mathrm{C}_{i} \hat{p}^i(1-\hat{p})^{(4-i)}$ と計算できる。（ただし0-index）

In [35]:
values = np.array([0,1,2,3,4])
n_list = np.array([10, 40, 60, 50, 16])
p_bar = 1/4 * np.sum(values*n_list) / np.sum(n_list)
n = np.sum(n_list)
k = len(values)-1

pi_list = []
for i in range(len(values)):
    pi_list.append(p_bar**i * (1-p_bar)**(4-i) * 24/(np.math.factorial(i)*np.math.factorial(4-i)))
pi_list = np.array(pi_list)

chi = np.sum((n_list - pi_list*n)**2 / (pi_list*n))
chi_a = stats.chi2.ppf(0.95, k-1)

print('カイ自乗統計量:', chi)
print('95%点:', chi_a)
if chi > chi_a:
    print('適合していない')
else:
    print('適合している')

カイ自乗統計量: 1.0675772001183974
95%点: 7.814727903251179
正しい


## 10.13
$\mu$と$\sigma^2$の推定量として、標本平均$\bar{X}$と不偏分散$\hat{\sigma}^2$を使う。  
ここで、$\mathcal{N}({\bar{X}, \hat{\sigma}^2})$の分布関数を$F$とすると、$\pi_i(\bar{X}, \hat\sigma^2) = F(10(i+1))-F(10i)$である。(ただし0-index)

In [65]:
values = np.array([5, 15, 25, 35, 45, 55, 65, 75, 85, 95])
n_list = np.array([4, 4, 22, 26, 36, 45, 39, 21, 16, 4])
n = np.sum(n_list)
X_bar = np.sum(values * n_list) / n
sigma = np.sqrt(np.sum((values-X_bar)**2 * n_list) / (n-1))
pi_list = stats.norm.cdf(values+5, X_bar, sigma) - stats.norm.cdf(values-5, X_bar, sigma)
print(pi_list * n)

[ 2.30137264  6.92627989 16.12403119 29.03751229 40.45707051 43.61139783
 36.37315664 23.4706794  11.71672033  4.52458665]


観測度数が5に満たない左右の人クラスずつを併合する

In [61]:
n_list_up = np.append(np.sum(n_list[:2]), np.append(n_list[2:-2], np.sum(n_list[-2:])))
pi_list_up = np.append(np.sum(pi_list[:2]), np.append(pi_list[2:-2], np.sum(pi_list[-2:])))
k = len(n_list_up)

chi = np.sum((n_list_up - pi_list_up*n)**2 / (pi_list_up*n))
chi_a = stats.chi2.ppf(0.95, k-3) # muとsigmaの自由度も引くのを忘れない

print('カイ自乗統計量:', chi)
print('95%点:', chi_a)
if chi > chi_a:
    print('適合していない')
else:
    print('適合している')

カイ自乗統計量: 4.477304990926617
95%点: 11.070497693516351
適合している
