# 統計に関して

**目標**  
①確率分布を表した表の読み方を理解して、確率変数の和の確率分布を計算できるようになる。  
②大数の法則と中心極限定理の直感的な意味合いを理解する。  
③点推定と区間推定の考え方を理解する。  
④検定の考え方を知る。  
⑤簡単な場合について、統計の計算をできるようになる。  

★**注意：**
厳密性よりもわかりやすさを重視してます。  
今回は離散分布しか考えていません。  
記載している定理・性質は連続分布でも全て成り立ちます。
連続確率分布の平均を求めるためには積分が必要となります。

## 確率変数と確率分布について

「$X$は確率的にある値をとる」そのような状態の$X$のことを確率変数とよぶ。  
とる値の候補が有限個の場合、それを表にすることができる。  
例えば、20%の確率で０、50%の確率で１、30%の確率で２という値をとるような確率変数$X$の場合、  
以下のような表になる。
確率変数をはじめとして、とる値とその確率が分かるものを確率分布とよぶ。

|  X   |  0   |  1  |  2  |  計 |
| :----: | :----: |:----: |:----: |:----: |
|  p   | 0.2  | 0.5 | 0.3 |  1  |

以下の例のため、確率変数$Y$を以下のように定めておく。

|  Y   |  0   |  2  |  計 |
| :----: | :---: |:----: |:----: |
|  p   | 0.6  |0.4  |  1  |

このとき、$X＋YやY^{2}、4Y$といった確率分布を考えることができる。  
それらの分布は、以下のようになる。

|  X＋Y   |0|1|2|3|4|  計 |
| :----: |: ---- :|:----: |:----: | :----: | :----: |:----: |
|  p   | 0.12  |0.3  |  0.26  |0.2|0.12|1|

|  Y^2 |0|4|  計 |
| :----: |: ---- :|:----: |:----: |
|  p   | 0.6|0.4|1|

|  4Y |0|8|  計 |
| :----: |: ---- :|:----: |:----: |
|  p   | 0.6|0.4|1|

# 確率分布の平均と分散
確率分布に対して、平均や分散を考えることができる。  
Xの平均を$E(X)$と書き、「値×(その値をとる確率)の総和」で求められる。(平均のことを期待値ともいう。)  
Xの分散を$V(X)$と書き、「平均との差の2乗の平均」もしくは$V(X)=E(X^{2})-(E(X))^{2}$で求められる。  
Xの標準偏差を$\sigma(X)$と書き、$\sigma(X)=\sqrt{V(X)}$で求められる。

### 平均や分散に関する重要な性質
$X$と$Y$を確率分布とする。  
①$E(aX)=a×E(X)$　(aは定数)  
②$E(X+Y)=E(X)+E(Y)$  
③$XとY$が独立の時、$E(XY)=E(X)×E(Y)$   
④$V(aX)=a^{2}×V(X)$　(aは定数)  
⑤$XとYが$独立の時、$V(X+Y)=V(X)+V(Y)$  


確率分布$X$と$Y$が独立とは、$X$と$Y$に関係性・依存性がなく全く無関係であるということを意味している。  
特に、**②**と**⑤**は頻繁に使用するので覚えてほしい。

# 大数の法則と中心極限定理
**大数の法則**とは、「標本の平均と真の平均の差が $\epsilon$以上になってしまう確率は試行回数を増やすと0に収束する」という法則である。
「たくさん試行すれば、その確率は真の確率に近づいていく。」ということを意味している。

**中心極限定理**とは、どんな分布$X$に対しても、$X$と独立で同じ分布$X_{1},X_{2},X_{3},\dots,X_{n}$をたくさんとってきて$X_{1}+X_{2}+X_{3}+\dots+X_{n}$という確率分布を考えれば、それは正規分布で近似できる、という定理である。  
**「どんな分布でも」**という点がポイントである。

# 正規分布の正規化
正規分布は平均と分散の2つの値を定めることで、一意に定まる。  
このことから$N$(平均,分散)という書き方で正規分布を表す。  
$X$が正規分布の時、  
$$\frac{X-E(X)}{\sigma(X)}$$という分布を考えると、これは平均０、分散１の正規分布(これを標準正規分布という)になる。  
つまりどんな正規分布も少し変換を施すだけで標準正規分布となる！！  
したがって、標準正規分布の形さえ知っていればそれで十分ということになる。  
その形を示したものが標準正規分布表である。読み方は各自調べてください。  
標準正規分布表を見ることで「〇％の確率で○○以上の値をとる」「○○以上の値をとる確率は〇％である」ということを調べることができる。

以下は、標準正規分布表が載っているサイトである。  
https://keisan.casio.jp/exec/system/1161228880  
https://unit.aist.go.jp/mcml/rg-orgp/uncertainty_lecture/normsdist.html

# 統計学
統計学を用いて求める事柄は大きく分けると2種類ある。  
①事象の生じる確率が分かっている時に、事象の生じる回数を予想する。  
②事象が生じた回数から、事象が生じる確率を予想する。  
この違いをはっきり理解し、どちらの場合を考えているのかを意識することが重要である。  
一般的に、①の方が簡単で②の方が難しい。

### ①に関する練習問題
50%の確率で当たるくじを10万回引いた時の当たる回数について考える。  
以下の（ア）～（エ）に適切な数字を入れよ。(有効数字に関して、厳密には考えなくてよい。)
(もちろん、正規分布表をみてよい)

・当たる回数の平均は（ア）回である。  
・10万回のうち、50190回以上当たる確率は約（イ）%である。  
・10万回のうち、（ウ）回以上当たる確率は約0.5%である。  
・10万回のうち、（エ）回以下しか当たらない確率は約0.5%である。  
したがって、当たる回数は99%の確率で（エ）回～（ウ）回の範囲に入っているとわかる。

### 解答例
くじを１回引いた時に当たる回数を表す確率変数を$X$とする。
$X$の確率分布は以下のようになる。

|  X |0|1|  計 |
| :----: |: ---- :|:----: |:----: |
|  p   | 0.5|0.5|1|

$X$と独立で$X$と同じ分布$X_{1},X_{2},X_{3},\dots,X_{100000}$をとってくる。  
$X_{1}+X_{2}+X_{3}+\dots+X_{100000}$が10万回引いた時の当たる回数を表している。  この分布が知りたい。  
中心極限定理より$X_{1}+X_{2}+X_{3}+\dots+X_{100000}$は正規分布で近似できる。  
以下、その正規分布の平均と分散を求める。
上に書いた性質を繰り返し用いて、  
$E(X_{1}+X_{2}+X_{3}+\dots+X_{100000})=E(X_{1})+E(X_{2})+E(X_{3})\dots+E(X_{100000})=100000×E(X)=100000×0.5=50000$
$V(X_{1}+X_{2}+X_{3}+\dots+X_{100000})=V(X_{1})+V(X_{2})+V(X_{3})\dots+V(X_{100000})=100000×V(X)$
ここで$V(X)=E(X^{2})-(E(X))^{2}$であったことを用いると、$V(X)=0.25$とわかり、
$V(X_{1}+X_{2}+X_{3}+\dots+X_{100000})=25000$とわかる。
（ア）$\cdots$50000

(参考)$X^{2}$の確率分布は

|  X^2 |0|1|  計 |
| :----: |: ---- :|:----: |:----: |
|  p   | 0.5|0.5|1|

であるから、$E(X^{2})=0.5$である。

以下、$X_{1}+X_{2}+X_{3}+\dots+X_{100000}$を$Y$と置こう。
$Y$は平均50000、分散25000(標準偏差158.1)の正規分布であるから、正規化をすることで、
$\frac{Y-50000}{158.1}$は標準正規分布に従うことがわかる。  
$Y>50190$と$\frac{Y-50000}{158.1}>1.2$は同値である。  
標準正規分布において、1.2以上の値をとる確率は正規分布表を見ると、11.5%である。  
よって、$Y>50190$となる確率も11.5%である。(イ)$\cdots$11.5%  
標準正規分布表を見ると、標準正規分布において2.58以上の値をとる確率は0.5%とわかる。  
$\frac{Y-50000}{158.1}>2.58$は、$Y>50408$と同値である。  
よって、$Y$が50408以上の値をとる確率も約0.5%とわかる。(ウ)$\cdots$50408  
正規分布の対称性より（エ）$\cdots$49592

**多少手順が複雑に感じたかもしれませんが、
非常に汎用性の高い定番の計算方法なので、何とか計算の流れを覚えて計算できるようになってもらえればと思っています。**

### ②における考え方
100000回くじをひいたら49997回当たった。さて、くじの当たる確率は50%といえるだろうか？  
答えはNOである。50.01%かもしれないからだ。屁理屈のような気がするかもしれないが、
ちょうど50%であることを示す(あるいは強く示唆する)ことはできないのだ。
いえることは、「50%としてもそんなにおかしくはないなあ」程度なのである。

ただ、くじが当たった回数が49012回だったとしよう。
仮に当たる確率がちょうど50%なら、99%の確率で49592～50408回の範囲に入っているはずである。
49012回ということはこの範囲を大きく逸脱している。
もし、本当に当たる確率が50%なら、49012回以下しか当たらない確率は$\frac{1}{10000000000}$ほどのレベルである。さすがにそんなことはあり得ないので、50%のはずがない！ということができる。
これが検定の考え方である。

当たる確率が〇％と仮定すると、**こんなことになる確率はほんの〇％しかないから** おかしい。
よって、当たる確率は〇％ではないと思われる。という論法である。  
**こんなことになる確率はほんの〇％** の部分を有意水準とよび、状況に応じて使い分ける。
5%や1%がよく使われる。  
確率を仮定し(この仮定を帰無仮説とよぶ)、それが棄却されたときのみ意味を持つというのが検定である。

検定の際に気を付けてほしいことがある。
それは、基本的には「○○以下の確率、もしくは○○以上の確率が小さいから～～」という議論の形にしなければならないという点である。
例えば、100000回くじをひいたら49997回当たった時に、  
当たる確率が50%と仮定して、100000回振った時に**ちょうど**49997回当たる確率は1%以下なのでこの仮定はおかしい、などという議論をしてはいけない。

以上が、統計学を用いた一番基本的な手法・計算となります。
今回は統計学の一番よくある手法について説明しましたが、統計学は奥が深いです。
もう少し詳しく知りたい方は講義「統計入門」「数理統計」などを履修してみてください。
また、将来データサイエンス等をしてみたいという思いがあり、統計に関する深い知識があった方が望ましいと思われる方は、「統計検定」という資格試験のテキストも参考にしながら勉強してみてください。

# 第４回TAからの練習問題(12/13)
今回、学んだことを使って以下の問題１、問題２、問題３に解答してください。
解答を作ってくださった方は提出してもらえれば採点・確認致します。
計算式を入力するのは大変だと思いますので、手書きで書いたものを授業時にTAに提出してもらっても構いません。  
もちろん、MarkdownにLatex記法で書いたipynbファイルをPandAを通して提出してくださってもOKです。

## 問題1
20%の確率で当たるくじを10000回(1万回)引いた時の当たる回数について考える。  
以下の（ア）～（エ）に適切な数字を入れよ。(有効数字に関して、厳密には考えなくてよい。)
(もちろん、正規分布表をみてよい)

・当たる回数の平均は（ア）回である。  
・1万回のうち、2040回以上当たる確率は約（イ）%である。    
・1万回のうち、（ウ）回以上当たる確率は約2.5%である。  
・1万回のうち、（エ）回以下しか当たらない確率は約2.5%である。  
したがって、当たる回数は95%の確率で（エ）回～（ウ）回の範囲に入っているとわかる。

## 問題2
アームが２つの場合のバンディット問題を考える。  
今、一方のアームの当たる確率が40%で、もう一方のアームの当たる確率が60%であることが分かっている。  
ただし、どちらが60%で当たるアームなのかはわからない。  
これから１つのアームを引き続ける。(もう一方は一度も引かない。)  
引き続けているアームがどちらのアームなのかを99%以上の確率で当てるためには、
選んだアームから何回引けば十分か？

**問題の形式は異なるが、この資料に載っている内容のみで求めることができます。  
回数を予想してから、計算をして求めてみよう。**  
**実際にプログラムを作って、本当に99%で当てることができるのか試してみるのも面白い。**

## 問題3
$X$を0.01から1まで0.01刻みごとにそれぞれ確率0.01でとる確率変数とする。
確率分布は以下の通りになる。

|  X   |0.01|0.02|0.03|…|0.98|0.99|1|  計 |
| :----: |: ---- :|:----: |:----: | :----: | :----: |:----: |:----: |:----: |
|  p   | 0.01  |0.01  |  0.01  |…|0.01|0.01|0.01|1|

この時、$X$と独立な同分布$X_{1},X_{2},X_{3},$をとってきて、$Y=\max{\{X_{1},X_{2},X_{3}\}}$と定める。  
つまり、$Y$は$X$から値を３回取ってきて、そのうちの最大値を表す確率変数である。  
**以下、確率変数$Y$の確率分布と平均を求める。**  
以下の（ア）～（カ）に当てはまる数字・数式を求めよ。$n$は１から100までの整数を表すとする。  

$Y$が$0.01n$以下であることと、$X_{1},X_{2},X_{3}$が全て$0.01n$以下であることは同値である。  
$X$が$0.01n$以下である確率は（ア）なので、$X_{1},X_{2},X_{3}$の全てが$0.01n$以下である確率は（ア）の（イ）乗である。  
したがって、$Y$が$0.01n$以下である確率は（ア）の（イ）乗である。  
$Y$がちょうど$0.01n$である確率は、「$Y$が$0.01n$以下である確率」から「$Y$が$0.01(n-1)$以下である確率」を引いた値なので、$0.01^{3}\times($(ウ)$n^{2}-$(エ)$n+$(オ)$)$である。  

これで$Y$の確率分布が求まった。
平均の定義より、
$$
E(Y)=\sum_{n=1}^{100}(カ)×0.01^{3}((ウ)n^{2}-(エ)n+(オ))
$$
である。計算は大変であるが、高校の数Ｂで習った数列の和の公式を使うなどすると値を求めることができ、
$E(Y)$=（カ）とわかる。  

今回の課題で、初めからアームの確率が分かっている（カンニングできる）とすれば（カ）という確率で当てることができるというわけである。
当然我々はそんなことは許されていないので、この確率まで的中率をあげることはできない。

今回の計算は、アームの確率分布を離散分布と仮定して求めたものであり、厳密には$X$を[0,1]上一様分布とした方がより正確な値が求まります。
連続分布での計算もできる人は、ぜひ[0,1]上一様分布の場合で計算してみてください。

ちなみに今回の条件、「アームは３つで一様分布に基づき確率が決定、確率未知、引ける回数100回」の場合、当てられる回数の期待値を最大にする戦略をとると、**平均で72.0098回**当てられることが分かりました。
(アームの確率の選ばれ方や、運の要素によりこれを超える回数当てられることはあり得ますが、長期的にこの値を超えることはできないという意味です。)  
様々な見方ができますが、確率が未知なせいで3回分当てられる回数が減ってしまうということですね。アームの確率を知ることには的中３回分の価値があるともいえます。どうでしょうか？私は、「アームの確率の情報はたった３回分の価値しかないのか」と驚きました。  
皆さんの戦略は72.0098回にどれだけ近づけたでしょうか？