#

# 母平均の区間推定

1. 母分散が既知の場合  
	a. サンブル数が３０以上の場合、正規分布（分散は母分散）  
	b. サンプル数が３０未満の場合、正規分布（分散は母分散）  

2. 母分散が未知の場合  
	a. サンブル数が３０以上の場合、正規分布（分散は標本分散）    
	b. サンプル数が３０未満の場合、t分布（自由度n-1）

## 例題 (1)母分散が既知の場合

ある園芸農家が出荷予定のカーネーション16本のつぼみの直径を調べたところ，平均で10.0mmでした．　　
この園芸農家の栽培しているカーネーションのつぼみの平均直径を信頼度95％で区間推定すると，どのようになるでしょうか？
なお，母分散は36.00mm2とわかっているものとします．

In [4]:
n <- 16 # 標本の大きさ
x <- 10 # 標本平均
var1 <- 36 # 母分散
alpha <- 0.05 # 有意水準
z <- qnorm(1-alpha/2) # z-value
(lower <- x-z*sqrt(var1/n)) # 下限値
(upper <- x+z*sqrt(var1/n)) # 上限値

## 例題 (2)母分散が未知の場合

ある酪農家が搾乳中のホルスタイン5頭の乳量を調べたら，１頭あたりの平均乳量は22.1リットル，不偏標準偏差は6.5リットルでした．
この農家が飼っているホルスタインの１頭当たりの乳量(/日)を信頼度95%で推定してください．




In [6]:
n <- 5 # サンプルサイズ
df <-- n-1 # 自由度
s <-- 6.5 # 不偏標準偏差
alpha <- 0.05 # 有意水準
(t <- qt(1-(alpha/2), n-1)) # 境界値(両側確率なので α/2)
SE <- s/sqrt(n-1) 
(lower <- 22.1 - t*SE) # 95%信頼区間の下限
(upper <- 22.1 + t*SE) # 95%信頼区間の上限

## 例題 母比率の推定問題例

  とある市の市長選でA氏とB氏が立候補しました．あるテレビ局が選挙速報のために出口調査を行いました．
300人について出口調査を行った結果，A氏に投票した人が168人というデータが得られました．
過半数の得票で当選すると考えると，この出口調査の結果からA氏の当選確実の予想を出せるでしょうか?


In [9]:
binom.test(168, 300)


	Exact binomial test

data:  168 and 300
number of successes = 168, number of trials = 300, p-value = 0.04313
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.5018048 0.6169985
sample estimates:
probability of success 
                  0.56 


今求めようとしている95%信頼区間
```
95 percent confidence interval:
0.5018048 0.6169985
```

この場合， 母比率の95%信頼区間は  
50.1≤p≤61.7  
となる  


「信頼度95%のもとで，A氏の得票率の信頼区間は 50.1%から61.7%と推定できる」という結果が得られる

この結果を見ると，区間推定の下限値がギリギリで過半数の50%を超えているので，選挙速報でも「当確を出せる」ということになる  
ただし，信頼度95%なので，5%の確率でこの当確予測は外れて誤報となる可能性もありえる


信頼度を指定したい場合はオプションの conf.level をもちいる

信頼度99%の場合は

In [11]:
binom.test(168, 300, conf.level=0.99)


	Exact binomial test

data:  168 and 300
number of successes = 168, number of trials = 300, p-value = 0.04313
alternative hypothesis: true probability of success is not equal to 0.5
99 percent confidence interval:
 0.4840299 0.6340240
sample estimates:
probability of success 
                  0.56 


1標本の平均の検定なのでt検定を使う
検定統計量t,有意確率p-valueをRで求める

In [2]:
brake <- c(39.9,41,4,39.9,41.3,42.1,42.0,41.6,42.3,39.8,41.8)
t.test(brake,mu=40)


	One Sample t-test

data:  brake
t = -0.65154, df = 10, p-value = 0.5294
alternative hypothesis: true mean is not equal to 40
95 percent confidence interval:
 30.23621 45.34561
sample estimates:
mean of x 
 37.79091 


### 結果の見方
```
> alternative hypothesis: true mean is not equal to 40
```
結果：対立仮説、真の平均は40ではない

95%の信頼区間は 30.23... - 45.35...
標本平均は 37.79...

## 仮説検定の手順

1. 帰無仮説と対立仮説を立てる．
2. 検定の目的に応じて，検定方法を選ぶ(t検定，カイ二乗検定など)
3. 統計ツールで検定統計量を計算する．(t値，カイ二乗値など)
4. 統計ツールで有意確率 P値 p-value を計算する．
5. 有意確率 p-value を有意水準αと比較し， 帰無仮説を評価する．

# 母平均の差の検定

新しい販売促進キャンペーンを行ったとする．従来のキャンペーンを行ったグループAと新しいキャンペーンを行ったグループBとで効果を比較したい．AとBのグループで10名を抽出し，グループ間で1か月の購入金額に差があるのかどうかを検証する場合について考える

Aグループ 11,10,7,10,8,13,8,9,10,11  
Bグループ 12,10,12,11,11,9,16,17,13,11  
(単位：千円)  


帰無仮説H0と対立仮説H1を立てる
いま，新しいキャンペーンBの効果を示したいので，グループで購入金額に差があることを示したいということになる
すると，帰無仮説と対立仮説は次のようになる


帰無仮説 H0 : 2つのグループで購入金額に差がない  
対立仮説 H1 : 2つのグループで購入金額に差がある  


”差がない” つまり，”購入金額の平均値の差が0である”という帰無仮説H0が棄却されれば，
対立仮説H1(=本当に示したいこと)を採択することができ

2つのグループの平均値に差があるかどうかを統計的に比較し，
差が意味のある(有意である)ものかどうかを検定する場合にはt検定を用いる


In [12]:
A <- c(11,10,7,10,8,13,8,9,10,11)
B <- c(12,10,12,11,11,9,16,17,13,11)
t.test(A,B)


	Welch Two Sample t-test

data:  A and B
t = -2.562, df = 16.093, p-value = 0.02082
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.5676709 -0.4323291
sample estimates:
mean of x mean of y 
      9.7      12.2 


- 有意水準が5%のときにP値が0.05以下であれば，帰無仮説は棄却される
- 今回は 0.02082なので帰無仮説H0が棄却され，対立仮説H1が採択される
- よって，「2つのグループで購入金額に差がある」と結論づけることができる


# 例題　母比率の差の検定

独立した複数のグループ間で集計した成功・失敗(あるいは陽性・陰性や，該当・非該当，賛成・反対など)の比率の差の検定を行う場合を考える

あるテレビ番組の視聴率の調査で都市Aでは600人中116人(19.3%)が，都市Bでは300人中72人(24.0%)が視聴しました．
両都市で統計的に視聴率が異なると言えるかどうかを仮説検定します．

仮説は次のように立てる．

帰無仮説 H0 ：両都市で視聴率に差がない
対立仮説 H1 ：両都市で視聴率に差がある

これは独立している2つの標本の母比率の差の検定になる

In [14]:
prop.test(c(116,72), c(600, 300))


	2-sample test for equality of proportions with continuity correction

data:  c(116, 72) out of c(600, 300)
X-squared = 2.3608, df = 1, p-value = 0.1244
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.10690835  0.01357501
sample estimates:
   prop 1    prop 2 
0.1933333 0.2400000 


- p-value が 0.05より大きいため，信頼度95%のもとで帰無仮説H0は棄却できない
- よって，「両都市で視聴率に差があるとはいえない」という結論になる
- 今回の調査結果における視聴率の差は，偶然の範囲内で起こってもおかしくない程度であるということがわかる



## 例題　独立性の検定

ある2つの変数がカテゴリ変数のときに，2変数間の関連を明らかにしたい場合はカイ二乗検定を行う．
このような場合は2変数のクロス集計表を作成する．
そしてクロス集計表に基づいて，二変数が独立かどうかを検定する

この方法としてカイ二乗検定(χ2検定)やフィッシャーの正確検定がある

ある政策への賛否について新聞A紙, B紙，C紙の購読者に尋ねたところ，
表のような結果が得られました．購読紙と政策の賛否の関係が独立であるかどうか調べます．

|    |  賛成  |  どちらともいえない  |  反対   |
| ---- | ---- | ---- | ---- |
|  A紙  |  80  |  30  |  20  |
|  B紙  |  40  |  30  |  50  |
|  C紙  |  40  |  40  |  60  |

帰無仮説 H0 : 購読紙と政策の賛否には関係がない(独立である)
対立仮説 H1 : 購読紙と政策の賛否には関係がある(独立でない)



In [16]:
x<-matrix(c(80, 30, 20, 40,30,50,40,40,60), ncol=3, byrow=T)
answer <- c("賛成","どちらともいえない", "反対")
paper <- c("A紙", "B紙", "C紙")
colnames(x) <-answer
rownames(x) <- paper
x

chisq.test(x)

Unnamed: 0,賛成,どちらともいえない,反対
A紙,80,30,20
B紙,40,30,50
C紙,40,40,60



	Pearson's Chi-squared test

data:  x
X-squared = 40.052, df = 4, p-value = 4.222e-08


- カイ二乗値 X-squared, 自由度df, P値p-valueが表示される
- P値が0.05以下なので 帰無仮説は棄却される
- つまり，対立仮説H1が採択されることになり，「購読紙と政策の賛否には関係がある」，購読紙と政策の賛否は独立でないという結論になる