<a href="https://colab.research.google.com/github/szkjiro/program/blob/main/PyBinomial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 確率と統計

次のプログラムは乱数にしたがって0または1を表示する．
一つだけを表示するとき，その値から，値の出る確率を推測することはできるだろうか．
一回だけの実行では，そもそも「0または1を表示する」こともわからない．
何回か実行してみて，初めて，0および1がほぼ同じ割合で出ることが想像できる．

In [None]:
import numpy as np
# 最小low，最大high-1，size個数の整数値乱数を生成
x = np.random.randint(low=0, high=2, size=1)
print(x)

次のプログラムは4個（size=4）とすることで，一度に4個の0または1を表示する．

In [None]:
# 最小low，最大high-1，size個数の整数値乱数を生成
x = np.random.randint(low=0, high=2, size=4)
print(x)

何回か実行してみると，0と1の出る割合が同じかどうか確信は持てなくても，いずれかが多く出るような偏りはなさそうに見える．

問：上の事実を確認しておくこと．

そこで次の課題では，sizeを変数とするために値nを用意して，適当なnに対して何度か実行し，そのときの1の現れる全体比を表示する．

問：nを大きくするとき，0.5に近い値になっていくことが観察できただろうか．ｎの小さいときでも0.5に近いといえただろうか．


In [None]:
# 最小low，最大high-1，size個数の整数値乱数を生成
n = 10000
x = np.random.randint(low=0, high=2, size=n)
# xは0または1なので合計（sum関数の値）をとると，1の個数になる
# その合計値をnで割れば1の割合になる
print(sum(x)/n)

以下では，上のプログラムで実行した0と1の作るパターンおよび，このnを大きくしたときにそのた値はどのように振る舞うかを観察したい．

## sizeを大きくしたときの割合の振る舞い

以下のプログラムはsizeを4倍ずつ増やしながら$4^{10}$倍までの変化を，横軸にsize，縦軸に割合をプロットしたグラフを描かせた．

注意：この手続きを長く繰り返すとGoogle Colabで利用できるメモリ領域を超えるため，エラーが生じる．
たとえば乗数４のかわりに10を利用したとしよう．
すると，10の10乗個の乱数を生成するには10GBを超えるメモリ領域を要求することになる．
べき乗の指数を大きくしたときも同様な問題を生じる．

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# 結果を記録するための配列
p = [0]*10
# sizeの初期値
n = 2
for i in range(10):
  x = np.random.randint(low=0, high=2, size=n)
  p[i] = sum(x)/n
  n = n*4

# 横軸は0,1,2,...で良いのでプロット関数に与える横軸を省略
plt.plot(p)

（0.5からの）誤差はプラスにもマイナスにもなる．
いずれにしても，nが大きくなれば，誤差は0に近づく．
この振る舞いを精密に観察することはしないが，
誤差の大きさは$1/\sqrt{n}$に比例することがわかっており，
それを**大数の法則**という．

## ランダムパターンの観察

先に動かした次のプログラムを考えよう．

In [None]:
# 最小low，最大high-1，size個数の整数値乱数を生成
x = np.random.randint(low=0, high=2, size=4)
print(x)

この場合の0と1のパターンは次ですべてであり，各パターンの現れる割合を計算することは簡単である．

- 0 0 0 0
- 1 0 0 0
- 0 1 0 0
- 0 0 1 0
- 0 0 0 1
- 1 1 0 0
- 1 0 1 0
- 1 0 0 1
- 0 1 1 0
- 0 1 0 1
- 0 0 1 1
- 1 1 1 0
- 1 1 0 1
- 1 0 1 1
- 0 1 1 1
- 1 1 1 1

### パターンの現れる場合の数

1. どのパターンも，現れる割合は同様に確からしい
2. 1の現れる個数に注目すると，個数にもとづくパターンの種類は**二項係数**（組み合わせの数）で記述できる

である．

このうち，法則1は私たち人間の錯誤に関係した興味深い問題があり，心理学者たちの研究対象となっている．

たとえば，パターン「1 1 0 0」はパターン「1 1 1 1」よりも出やすいと答える人が多い．これは**上の法則1と法則2を混同した考え方をしやすい**ことが理由らしい．
これは「サイコロの目で6が出るのが10回続いたら，次は6以外の目が出やすい」のような判断であり，
**ギャンブラーの錯誤**と言われる．

次のプログラムでは0と1をn個続けたときに1の現れる個数，すなわち法則2に注目する乱数実験している．
大数の法則を観察した上のプログラムに似せてみたので，
興味のある人は違いを調べてみるとよい．

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# 結果を記録するための配列
n = 20
p = [0]*(n+1)
# 10000回分のデータを集計する
for i in range(100000):
  x = np.random.randint(low=0, high=2, size=n)
  k = sum(x)
  p[k] = p[k]+1

# 横軸は0,1,2,...で良いのでプロット関数に与える横軸を省略
plt.plot(p)

この山型のパターンのことを**二項分布**という．
ここまでは，簡単のためすべての数の出る確率が等しい乱数（一様乱数）を使って実験をしてきた．

ここで，画鋲を投げたときに針が上に向くか，押す側が上に向くかのような問題に「1と0」を当てはめたいとする．
このような問題を考えるには「1の出る確率p」をいろいろな値に設定できる必要がある．
1の出る確率のことを，二項分布においては**成功の確率**（「成功」は良いことに限定しない）といい，サイズnのことを**試行の回数**という．
毎回の成功の確率pが一定の試行のことを**ベルヌーイ試行**といい，その成功の回数の確率は二項分布にしたがうことが数学的にわかっている．
この分布を記号$B(n,p)$で表す．

二項分布は以下の性質を持つことが数学的にわかっている．

- 平均は$np$
- 分散は$np(1-p)$，言い換えれば，標準偏差は$\sqrt{np(1-p)}$
- $n\to\infty$のとき正規分布$N(np,\sqrt{np(1-p)})$に近づく．

標準偏差の値は，上の実験で描いたグラフにおいて，山型が上に凸（中央付近）から下に凸（両裾）に変化するとみられる点（変曲点）を与える横軸の値
$$
np(1-p)\pm \sqrt{np(1-p)}
$$
として観察できる．

## 統計的推測

統計的推測とは，以上の**実験からの観察と，数学的性質との関係を逆転させて活用する技術**である．
上に例示した画鋲を投げたときに針が上を向く確率（成功の確率）を理論的に定めることはたぶん困難であろう．

それでも，何回も画鋲を投げて針が上を向く割合のデータをとることはできる．
そこで，データから得た割合をもとに，成功の確率pを推測することを行う．
これを**統計的推測**という．

Pythonでは二項分布に関する計算を容易に行うための関数がいくつも用意されており，以下ではライブラリSciPyにあるものを用いることにする．


In [None]:
# 二項分布の推測に使う関数の設定
# fromから指定する場合とimportで始める場合の違いはここでは説明していない
# 習慣として使われる形式に本授業では準拠している
from scipy import stats
import matplotlib.pyplot as plt

# くじ引きの想定
n = 10 # くじを引く本数
p = 0.5
x = range(n+1) # 10本のくじを引くと当たる本数は0本から10本
# xの各要素に対する二項分布の確率を計算
# binom.pmf(あたりの数,くじを引く数,あたりの確率)
prob = stats.binom.pmf(x,n,p)
# 棒グラフの作成，二項分布
plt.bar(x,prob)


問：上のグラフを他のpの値（$0<p<1$）に対しても描かせてみよう．

問：pと1-pに対して（たとえば0.2と0.8など），グラフの形はどのような関係にあるだろうか．

問：nを大きくしたときに，グラフはどのような変化を見せるだろうか

### 累積確率

上の確率を小さい方から順に足していったらどうなるか．
また，それをグラフに描かせてみよう．

問：この例の最後の計算式sumを利用した計算値において，x=[0,1,...,10]を与えたときの合計値はいくらになるか確かめよ．
また，その値が得られる理由はわかるだろうか．


In [None]:
# 二項分布の推測に使う関数の設定
# fromから指定する場合とimportで始める場合の違いはここでは説明していない
# 習慣として使われる形式に本授業では準拠している
from scipy import stats
import matplotlib.pyplot as plt

# くじ引きの想定
# binomtest(当たる本数，くじを引く本数)と指定
n = 10 # くじを引く本数
p = 0.5
x = range(n+1) # 10本のくじを引くと当たる本数は0本から10本
# xの各要素に対する二項分布の累積確率を計算
# 上の例題と関数だけ異なる
prob = stats.binom.cdf(x,n,p)
# 棒グラフの作成，二項分布
plt.bar(x,prob)
# 累積確率関数に頼らなくても，次のようにすれば途中までの累積値を求められる
x1 = range(2,7) # たとえば2から7まで
sum(stats.binom.pmf(x1,n,p))


### 検定関数

同じライブラリ内に，ある事象が生じる確率を計算する検定関数が用意されている．
また，上で説明した「平均値±標準偏差」と似た「平均値±2倍の標準偏差」のような区間（信頼区間という）を計算する関数も用意されている．

問：成功の確率ｐ，試行の回数ｎなどを変えて，いろいろな観察をしてみよう．

In [None]:
# 二項分布の推測に使う関数の設定
# fromから指定する場合とimportで始める場合の違いはここでは説明していない
# 習慣として使われる形式に本授業では準拠している
from scipy import stats
import matplotlib.pyplot as plt

# くじ引きの想定
# binomtest(当たる本数，くじを引く本数)と指定
n = 10 # くじを引く本数
p = 0.5
x = range(n+1) # 10本のくじを引くと当たる本数は0本から10本
# 二項分布の検定関数を使う
kekka = stats.binomtest(1,n,p)
# p値
print(kekka.pvalue)
# 95%信頼区間
print(kekka.proportion_ci())

二項分布関数を利用して10回中1回の成功（あたり）の確率（ｐ値）を計算している．
通常，このｐ値が0.05より小さいときに帰無仮説あるいは対立仮説を採択とか棄却とか，統計学の本には書いてある．
このｐ値は，帰無仮説（偶然性をもとにする仮説）のもとで，検定したい事象の起こる確率を表す以上のことはない．

ハウツー的統計学本に書いてあるような，検定のアルゴリズム（決まった手続き）が存在するわけではない．
質の高い学術誌では検定離れ（検定手法で結論を出すのでなく，条件ごとの確率を記述する方向への変化）が進んでいる最中にある．