<a href="https://colab.research.google.com/github/szkjiro/program/blob/main/DSL_UnifToExp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 指数分布を作る

指数分布に見える現象は身近に観察できる．
その理由の一つが，

> ランダムに生じる現象の時間間隔は指数分布になる

という数学的事実である．
これを乱数実験で観察しよう．



In [None]:
n <- 50
x <- runif(n)
y <- rep(1,n)
plot(x,y,pch="|")

ここで「｜」を一様乱数の値に応じてプロットした．yの値1に意味はない．
y軸の値が同じ｜を，横方向に表示させるためだけに与えてある．
ランダム（まったく規則性のない）な現象が一様に分布するというのは，どこでも均一という意味ではない．
部分的に集まって見えるところや空白の大きなところが見つかったりする．
これが人間にとってランダムな現象を直感的に把握することを困難にしている理由の一つである．
ヒストグラムに表してみよう．
100個程度のデータではまったくの等確率にも見えない．

In [None]:
hist(x)

次に，同じデータを，「｜」の間隔に注目して集計したい．その準備に，データをxの値の順に並べ替える．並べ替えたものを◯でプロットしてみた．

In [None]:
x1 <- sort(x)
plot(x1,y)

関数sortは値を大きさの順に並べ替える．
yの値を1でプロットした上のグラフでは何も変わったようには見えないだろう．yの値をデータが小さい順に並ぶ，その番号としてグラフにしてみる．

In [None]:
plot(x)
par(new=T)
plot(x1,pch=2)

並べ替えたxの値x1を△でプロットした．△のy座標は順に大きくなっているのに，並べ替える前のxのy座標は跳ね回る点に見えないだろうか．
同じデータをプロットしたようには見えないだろう．
この違いが，単に大きさの順に並べ替えただけで得られたのである．

## 時間間隔の分布

乱数の値を「時刻」と思うことにする．
次の図は並べ替えた乱数の値の差をヒストグラムにした．

In [None]:
x2 = array(n)
x3 = array(n)
for (i in 1:n-1) {
  x2[i] = x1[i+1]-x1[i]
  x3[i] = x1[i+1]-x[i]
}
hist(x2)
# hist(x3)

このグラフは標本の大きさが50であり，度数が一直線に減っているのかよくわからない．
標本の大きさを1000にして実行してみよう．

In [None]:
n <- 10000
x <- runif(n)
x1 <- sort(x)
for (i in 1:n-1) {
  x2[i] = x1[i+1]-x1[i]
}
hist(x2)

区間ごとの度数が左から右へ6割から7割程度に減っていくのがわかるだろうか．
確かめてほしい．
数学的に厳密な指数分布ではこの度数の減り方が区間の取り方によらず，一定の割合で減っていく．
この特徴を数式に与えると次のようになる．
$$
y=e^{-\lambda x}
$$
定数$\lambda$は，実データからは平均として得ることができる．
また指数分布の数学的性質として平均と標準偏差が等しいことがわかっている．
上のデータに対して計算させている．両者の比が1に近いことがわかるだろうか．

In [None]:
mean(x2)
sd(x2)
# 平均と標準偏差の比
mean(x2)/sd(x2)