
# 乱数

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period,ja-technical-writing/sentence-length,ja-technical-writing/max-ten -->

コンピューター・シミュレーションでは乱数をよく使う。なぜなら、

- さまざまな現象は、確率的な要素を含んだ数理モデルで記述される（例：原子核の放射性崩壊、金融市場）、
- 決定論的な数理モデルであっても、正確な値を求めるのが難しいもの（例：多次元積分、最適化問題）について、確率的に多少の誤差を許容して乱数を用いたアルゴリズム（モンテカルロ法）を使うと比較的簡単に求まることがある、

という理由があるからである。

<!-- textlint-enable -->

<!-- textlint-disable ja-technical-writing/sentence-length -->

シミュレーションで使う乱数は、なにかの規則によって確定的に計算された（周期的な）疑似乱数列による**疑似乱数**（pseudorandom number）である<a name="cite_ref-1"></a>[<sup>[1]</sup>](#cite_note-1)。シミュレーションでの用途を考えると、十分に周期が長くて偏りが少ない「品質のよい」疑似乱数である必要があり、また高速に生成できることが望ましい。Pythonでは疑似乱数の生成に関して[randomモジュール](https://docs.python.org/ja/3/library/random.html)が用意されており<a name="cite_ref-2"></a>[<sup>[2]</sup>](#cite_note-2)、デフォルトではメルセンヌ・ツイスタ（Mersenne Twister）<a name="cite_ref-3"></a>[<sup>[3]</sup>](#cite_note-3)というよくテストされた擬似乱数生成器が使われる。

<!-- textlint-enable -->

## 今回のねらい

- シミュレーションに用いられる（疑似）乱数について理解する。
- 標準ライブラリを用いて乱数を発生できるようになる。

## 整数の一様分布乱数

まずはこれまでにも使ったことのある[randint関数](https://docs.python.org/ja/3/library/random.html#random.randint)について復習しよう。`random.randint(a, b)`のように整数$a$と$b$を渡すと**$a$以上$b$以下**のランダムな整数を返す。それぞれの整数が返ってくる確率は均一である（一様分布乱数）。

In [None]:
import random


def dice():  # サイコロの目(1から6)を返す関数
    return random.randint(1, 6)


print(dice())
print(dice())
print(dice())

## 練習問題

(1) 上の `dice` 関数を利用して、サイコロ3回振ってその和を返す関数を作ろうとした。下がその関数（`three_dices`）であるが、何かが間違っている。ただしく動くように直せ。

In [None]:
import random


def three_dices():  # サイコロを3回振って、その目の和を返す関数（？）
    return dice() * 3


print(three_dices())
print(three_dices())
print(three_dices())

## 乱数のシード

これまでの例では、乱数を生成して表示すると毎回違った値が現れた。プログラムのデバッグ（プログラムの誤りを見つけて修正すること）や計算を再現したいときには、これは不便である。疑似乱数は周期的な数列であるから、次は数列のどの位置から乱数を取り出すということが指定できれば、毎回同じ値を出現させることが可能である。この位置を表す疑似乱数発生器の内部状態を指定するのに使われるのがシード（seed；種）である。次の例では、[seed関数](https://docs.python.org/ja/3/library/random.html#random.seed)を使ってシードを指定しているので、何回実行しても同じ疑似乱数列が生成される。

In [None]:
import random

random.seed(123)  # ここで擬似乱数生成器をシード123によって初期化する。

for i in range(10):
    print(random.randint(1, 6))

## リスト内包表記とヒストグラムの作成

ところで、[randint関数](https://docs.python.org/ja/3/library/random.html#random.randint)から返ってくる乱数は、本当に均一の確率で発生しているのだろうか。何回も乱数を発生させ、ヒストグラムを作って確かめてみよう<a name="cite_ref-4"></a>[<sup>[4]</sup>](#cite_note-4)。

まずはヒストグラムとして表示するためのデータを作る。サンプルサイズは100としてみよう。

In [None]:
import random

n = 100  # サンプルサイズ

# サイコロをn回振ったときの目をdataに格納する

data = []

for i in range(n):
    data.append(random.randint(1, 6))

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

上のセルのようにすればよいのだが、今回はこれと同じようなことを何回も行うので、もう少し短く書いてみよう。それには、[リスト内包表記（list comprehension）](https://docs.python.org/ja/3/tutorial/datastructures.html#list-comprehensions)と呼ばれるものを使う。これは、あるリストを元にして、新しいリストを作り出すという機能である。構文としては、

<!-- textlint-enable -->

`[新しいリストの要素となる式 for 元のリストの要素を表す変数 in 元となるリスト]`

となる<a name="cite_ref-5"></a>[<sup>[5]</sup>](#cite_note-5)。元となるリストの要素の数だけ、新しいリストの要素となる式が評価される。例を挙げよう。

In [None]:
[2 * i for i in [1, 2, 3]]  # [1, 2, 3] というリストの要素をそれぞれ2倍して新しいリストを作る。

「元となるリスト」の代わりに、元となるrangeオブジェクトを指定してもよい（`for`文に使える「集合」を表すものならなんでもよい）。

In [None]:
[2 * i for i in range(1, 4)]

リスト内包表記を用いて、`random.randint(1, 6)`を100回呼んでリストを作ってみる。

In [None]:
import random

data = [random.randint(1, 6) for i in range(100)]

<!-- textlint-disable ja-technical-writing/no-doubled-joshi -->

新しいリストの要素には元のrangeオブジェクトから得られる要素（`i`）をまったく使っていないことに注意しよう（上で `for`文を用いてデータを作ったときも、ループ内の処理に`i`を使っていなかった）。使わない変数に`i`などといういかにも意味のありそうな名前を付けるのは考える時間も労力ももったいないので、このような場合、Pythonでは慣習として`_`という名前がよく使われる。

<!-- textlint-enable -->

In [None]:
import random

data = [random.randint(1, 6) for _ in range(100)]  # 「i」なんて贅沢な名前の代わりに「_」と呼んでやる

さて、Pythonらしいデータの作成方法になってきたところで、ヒストグラムを描いてみよう。

In [None]:
# サイコロのヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import random
import statistics

n = 100

data = [random.randint(1, 6) for _ in range(n)]

print(f"平均 = {statistics.mean(data)}")
print(f"標準偏差 = {statistics.stdev(data)}")

fig, ax = plt.subplots()
ax.hist(data, bins=np.arange(0.5, 7), rwidth=0.8)
plt.show()

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

ここでは[statisticsモジュール](https://docs.python.org/ja/3/library/statistics.html)の[mean関数](https://docs.python.org/ja/3/library/statistics.html#statistics.mean)と[stdev関数](https://docs.python.org/ja/3/library/statistics.html#statistics.stdev)を用いて、生成したデータの平均と（標本）標準偏差も計算して表示している。また、ヒストグラムを書くために[Axesオブジェクト](https://matplotlib.org/api/axes_api.html#the-axes-class)の[histメソッド](https://matplotlib.org/api/_as_gen/matplotlib.axes.Axes.hist.html)を呼び出すときのオプションとして、

<!-- textlint-enable -->

- `bins` にビンの区切りとして `[0.5, 1.5, 2.5, ..., 6.5]`（NumPyの[arange関数](https://numpy.org/doc/stable/reference/generated/numpy.arange.html)を用いて<a name="cite_ref-6"></a>[<sup>[6]</sup>](#cite_note-6)作っている）、
- 棒グラフのように隙間を空けるため、`rwidth`に1.0より少し小さな値、

<!-- textlint-disable ja-engineering-paper/prh,ja-technical-writing/ja-no-weak-phrase,ja-technical-writing/sentence-length,ja-technical-writing/no-doubled-joshi -->

を指定している。サンプルサイズが100ぐらいだと、まだばらつきが見えるかもしれない。サンプルサイズを増やしていくとヒストグラムのばらつきは見えにくくなる。このとき、**大数の法則**（law of large numbers）の通りに、標本平均は$7/3 = 3.5$、標本標準偏差は$\sqrt{35 / 12} \approx 1.70783$に近づいていく。

<!-- textlint-enable -->

## 練習問題

(2) 上の例でサンプルサイズを10万程度にしてみよう。

## 一様乱数

<!-- textlint-disable ja-technical-writing/sentence-length,ja-technical-writing/no-doubled-joshi -->

[randomモジュール](https://docs.python.org/ja/3/library/random.html)の中にある[random関数](https://docs.python.org/ja/3/library/random.html#random.random)は、$0$以上$1$未満の範囲で連続的に一様分布する実数の乱数を返す（平均は$1/2 = 0.5$、標準偏差は$\sqrt{1/12} \approx 0.288675$）。

<!-- textlint-enable -->

In [None]:
# 生成された一様分布を眺めてみる
import random

n = 20

[random.random() for _ in range(n)]

In [None]:
# 一様乱数のヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

n = 100000

data = [random.random() for _ in range(n)]

print(f"平均 = {statistics.mean(data)}")
print(f"標準偏差 = {statistics.stdev(data)}")

fig, ax = plt.subplots()
ax.hist(data, bins=20)
plt.show()

[random関数](https://docs.python.org/ja/3/library/random.html#random.random)の結果を変換することで、ある実数の範囲に一様分布するような乱数を得ることは容易である。[randomモジュール](https://docs.python.org/ja/3/library/random.html)では[uniform関数](https://docs.python.org/ja/3/library/random.html#random.uniform)として提供されている。

In [None]:
# -10から10の間に一様分布する乱数のヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

n = 100000

data = [random.uniform(-10, 10) for _ in range(n)]

print(f"平均 = {statistics.mean(data)}")
print(f"標準偏差 = {statistics.stdev(data)}")

fig, ax = plt.subplots()
ax.hist(data, bins=20)
plt.show()

## 正規乱数

<!-- textlint-disable ja-technical-writing/sentence-length -->

$-\infty$から$\infty$の範囲で正規分布（normal distribution；ガウス分布（Gaussian distribution）とも呼ぶ）に従う確率分布で発生する乱数を正規乱数と呼ぶ。

<!-- textlint-enable -->

ここで、平均$\mu$、標準偏差$\sigma$の正規分布は次のように与えられる。

<!-- textlint-disable ja-technical-writing/sentence-length -->

$$
f(x; \mu, \sigma) = \frac{1}{\sqrt{2\pi} \, \sigma} \exp\left[ - \frac{(x - \mu)^2}{2 \sigma^2} \right] .
\tag{1}
$$

<!-- textlint-enable -->

In [None]:
# 正規分布のグラフ

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

mu = 0
sigma = 1

x = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 200)
y = 1 / (np.sqrt(2 * np.pi) * sigma) * np.exp(-((x - mu) ** 2) / (2 * sigma**2))

fig, ax = plt.subplots()
ax.plot(x, y)
ax.set_xlabel(r"$x$")
ax.set_ylabel(r"$f(x)$")
ax.grid()
fig.text(0.7, 0.76, rf"$\mu = {mu}$")
fig.text(0.7, 0.70, rf"$\sigma = {sigma}$")
plt.show()

<!-- textlint-disable ja-technical-writing/sentence-length,ja-technical-writing/no-doubled-joshi -->

平均$\mu$、標準偏差$\sigma$の正規分布から無作為標本をとると、平均$\mu$からのずれが$\pm 1\sigma$以下となる確率がおよそ$68.27\%$となる。$\pm 2\sigma$以下では$95.45\%$、$\pm 3\sigma$以下では $99.73\%$、$\pm 4\sigma$以下では $99.994\%$、$\pm 5\sigma$以下では $99.99994\%$となる<a name="cite_ref-7"></a>[<sup>[7]</sup>](#cite_note-7)。

<!-- textlint-enable -->

正規乱数を発生させるには、[gauss関数](https://docs.python.org/ja/3/library/random.html#random.gauss)を使えばよい。

In [None]:
# 正規乱数のヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import random
import statistics

n = 100000

mu = 0
sigma = 1

data = [random.gauss(mu, sigma) for _ in range(n)]

print(f"平均 = {statistics.mean(data)}")
print(f"標準偏差 = {statistics.stdev(data)}")

fig, ax = plt.subplots()
ax.hist(data, bins=np.linspace(mu - 4 * sigma, mu + 4 * sigma, 20))
plt.show()

## 練習問題

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

(3) [randomモジュール](https://docs.python.org/ja/3/library/random.html)には一様乱数や正規乱数のほかにも、[さまざまな確率分布で乱数を発生させることのできる関数](https://docs.python.org/ja/3/library/random.html#real-valued-distributions)が用意されている。これらを発生させて、ヒストグラムを作ってみよう。ビンの数は20程度（`bins=20`）でよいだろう。たとえば、

<!-- textlint-enable -->

<!-- textlint-disable ja-technical-writing/no-doubled-joshi,ja-technical-writing/max-ten -->
- [三角分布](https://ja.wikipedia.org/wiki/%E4%B8%89%E8%A7%92%E5%88%86%E5%B8%83)：`random.triangular(0, 1, 0.5)`。
- [ベータ分布](https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%BC%E3%82%BF%E5%88%86%E5%B8%83)：`random.betavariate(8, 4)`。たとえばこれは、表が出る確率がまったく不明であるコインを10回投げて、表が7回、裏が3回出たときの、表の出る確率の予測値の分布<a name="cite_ref-8"></a>[<sup>[8]</sup>](#cite_note-8)と言える（0.7にピークができる）。
- [指数分布](https://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E5%88%86%E5%B8%83)：`random.expovariate(879)`。たとえばこれは、平均寿命が $\lambda=879$ 秒である粒子<a name="cite_ref-9"></a>[<sup>[9]</sup>](#cite_note-9)の寿命の分布を表す。

<!-- textlint-enable -->

## 中心極限定理

<!-- textlint-disable ja-technical-writing/sentence-length -->

平均が$\mu$、標準偏差$\sigma$である母集団から無作為抽出した標本の平均$\bar{\mu}$は、そのサンプルサイズ$n$を大きくしていくと、母平均 $\mu$へと近づく（大数の法則）。このとき、何回も標本$n$個をとってその平均をとることを考えると、毎回得られる標本平均にはばらつきがあるが、その分布は$n$を大きくするにつれて平均$\mu$標準偏差$\sigma / \sqrt{n}$の正規分布に近づく。これは母集団の分布が正規分布でなくても（適当な仮定のもとに）成り立ち、中心極限定理（central limit theorem）と呼ばれている。この定理のおかげで、たとえば日本人を1000人無作為に選んでその身長の標本平均をとったとき、その値がどれくらいの確かさで日本人全体の身長の平均と近いかを論ずることができるのである。

<!-- textlint-enable -->

<!-- textlint-disable ja-technical-writing/no-unmatched-pair,ja-technical-writing/sentence-length -->

次の例では、$[0, 1)$の範囲の一様乱数をサンプルサイズ$n$回だけ足した部分和（$n$で割って標本平均にしていない）を計算し、それを$m$回繰り返すことで、その部分和がどのように分布するかを調べている。その値の分布は、$n$を大きくすると平均$n \mu$、標準偏差$\sqrt{n} \sigma$の正規分布に近づく（中心極限定理の結果に$n$をかけたものである）。特に$n = 12$のとき、（もとの一様乱数が平均$1/2$、標準偏差 $\sqrt{1/12}$のものであるから）平均$6$標準偏差 $1$の正規分布に近いものとなる。

<!-- textlint-enable -->

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

n = 12
m = 100000


def sample(n):
    result = 0
    for _ in range(n):
        result += random.random()
    return result


data = [sample(n) for _ in range(m)]

print(f"平均 = {statistics.mean(data)}")
print(f"標準偏差 = {statistics.stdev(data)}")

fig, ax = plt.subplots()
ax.hist(data, bins=20)
plt.show()

## 演習課題

(1) 試験の成績をシミュレーションしてみよう。平均点が50点、標準偏差が10点となる受験者1000人分の疑似成績データを、正規分布を仮定して発生させよ。そのデータから、実際に平均点、標準偏差を計算して表示し、度数分布のグラフを作れ（ビンの数は20程度でよい）。ただし、実際の試験の点数は整数で下限と上限があるべきだが、ここでは点数は（正規分布のように）実数で、$- \infty$から$\infty$の値を取りうるものだとしてよい<a name="cite_ref-10"></a>[<sup>[10]</sup>](#cite_note-10)。

In [None]:
# 課題解答7.1  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

<!-- textlint-disable jtf-style/4.3.1.丸かっこ（）,ja-technical-writing/sentence-length,ja-technical-writing/max-ten -->

(2) 課題(1)と同様にして、受験者1000人分の疑似成績データを3つの教科に対して正規分布を仮定して作る。教科Aは平均点40点が標準偏差10点、教科Bは平均点50点が標準偏差10点、教科Cは平均点60点が標準偏差10点である。それらの**3つの教科の合計点**（1000人分）を考え、平均点、標準偏差を計算して表示し、度数分布のグラフを作れ<a name="cite_ref-11"></a>[<sup>[11]</sup>](#cite_note-11)。

<!-- textlint-enable -->

In [None]:
# 課題解答7.2  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

<!-- textlint-disable ja-technical-writing/max-ten -->

(3) 試験の点数は必ずしも正規分布をしているわけではない。むしろ2つの山を成していることが多い。今度は、**3000人**の疑似成績データを、**平均点が50点**で、**60点に大きな山**があり、**30点にも小さな山**があるような分布となるように作ってみよう<a name="cite_ref-12"></a>[<sup>[12]</sup>](#cite_note-12)。大小の山の具体的な高さは問わない。そのデータから、実際に平均点を計算して表示し、度数分布のグラフを作れ。

<!-- textlint-enable -->

In [None]:
# 課題解答7.3  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

## 付録：確率変数の期待値と分散

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

$X = x_i$（$x_i$は実数）となる確率$P(X = x_i)$が$p_i (\ge 0)$である離散型確率変数$X$を考える。（有限個の）すべての場合についての和を取ると、確率の和は$\sum_i p_i = 1$である。このとき、$X$の期待値$E[X]$と分散$V[X]$は、それぞれ

<!-- textlint-enable -->

$$
E[X] = \sum_i p_i x_i \equiv \mu,
\tag{2}
$$

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

と

<!-- textlint-enable -->

$$
V[X] = E[(X - \mu)^2] = \sum_i p_i (x_i - \mu)^2 \equiv \sigma^2,
\tag{3}
$$

で定義される。分散$V[X]$の平方根をとった$\sigma$が標準偏差である。

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

$X$が連続型確率変数のときは、確率密度関数<a name="cite_ref-13"></a>[<sup>[13]</sup>](#cite_note-13)$f(x)$を導入して、$X$が区間$[a, b]$の中の値をとる確率は、

<!-- textlint-enable -->

$$
P(a \le X \le b) = \int_a^b f(x) dx ,
\tag{4}
$$

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

と書ける。あるいは微分形で、$X$が微小区間$[x,x+dx]$の中の値をとる確率は$f(x) dx$である、と言ってもよい。ただし、

<!-- textlint-enable -->

$$
\int_{-\infty}^{\infty} f(x) dx = 1 ,
\qquad
f(x) \ge 0 ,
\tag{5}
$$

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period,jtf-style/4.3.1.丸かっこ（） -->

である。連続型確率変数の場合の期待値と分散は、式<!-- eqref -->(2)と<!-- eqref -->(3)の総和を積分に置き換えて（$\sum_i \to \int_{-\infty}^{\infty}$、$p_i \to f(x) dx$）、

<!-- textlint-enable -->

$$
E[X] = \int_{-\infty}^\infty x f(x) dx \equiv \mu ,
\tag{6}
$$

<!-- textlint-disable ja-engineering-paper/use-si-units -->

$$
V[X] = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx \equiv \sigma^2 ,
\tag{7}
$$

<!-- textlint-enable -->

と定義される。

上記の期待値と分散の定義から、確率変数$X$と$Y$、定数$a$に対し、次のような公式を導くことができる。

$$
E[aX] = a E[X] ,
\tag{8}
$$

$$
E[X+a] = E[X] + a ,
\tag{9}
$$

$$
E[X + Y] = E[X] + E[Y] ,
\tag{10}
$$

$$
V[X] = E[X^2] - \bigl\{ E[X] \bigr\}^2 ,
\tag{11}
$$

$$
V[aX] = a^2 V[X] ,
\tag{12}
$$

$$
V[X+a] = V[X] ,
\tag{13}
$$

$$
V[X + Y] = V[X] + V[Y] + 2 \text{Cov}(X, Y) .
\tag{14}
$$

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

ただし、共分散$\text{Cov}(X, Y)$は、

<!-- textlint-enable -->

$$
\text{Cov}(X,Y) = E\Bigl[\bigl(X - E[X]\bigr) \bigl(Y - E[Y]\bigr) \Bigr]
= E[X Y] - E[X] E[Y]
\tag{15}
$$

で定義される。共分散$\text{Cov}(X, Y)$が$0$であれば$X$と$Y$は無相関である（uncorrelated）と言われ、このとき$V[X + Y] = V[X] + V[Y]$が成立する。

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

また、離散型確率変数$X$と$Y$に対し、$Z = X + Y$が$Z = k$となる確率$P(Z = k)$は、

<!-- textlint-enable -->

$$
P(Z=k) = \sum_t P(X = t) P(Y = k - t) ,
\tag{16}
$$

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

のように畳み込み和で与えられる。同様に、確率密度関数がそれぞれ$f(x)$と$g(y)$である連続型確率変数$X$と$Y$に対して、$Z = X + Y$の確率密度関数$h(z)$は、

<!-- textlint-enable -->

$$
h(z) = \int_{-\infty}^\infty f(t) g(z - t) dt ,
\tag{17}
$$

のような畳み込み積分で与えられる。

## 練習問題

(4) 次の場合の期待値と分散をその定義式により計算せよ。

(a) 均一な確率で1から6までの目が出るサイコロ。

(b) 次のような確率密度関数に従う連続型確率変数。

$$
f(x) =
\begin{cases}
1 , & \text{ for } 0 \le x \le 1 , \\
0 , & \text{ otherwise} .
\end{cases}
\tag{18}
$$

これは[random関数](https://docs.python.org/ja/3/library/random.html#random.random)によって得られる一様乱数の確率密度関数である。

(5) 次の場合の確率、確率密度関数を定義式により計算せよ。

(a) 均一な確率で1から6までの目が出るサイコロを2回振ったときに、その目の和が7となる確率。

<!-- textlint-disable jtf-style/4.3.1.丸かっこ（） -->

(b) 式<!-- eqref -->(18)で与えられた確率密度関数に従う2個の確率密度変数$X$と$Y$の和 $Z = X + Y$の確率密度関数。

<!-- textlint-enable -->

<!-- textlint-disable jtf-style/4.3.1.丸かっこ（） -->

(6) 今回の始めに出てきた`dice`関数を利用し、サイコロを2回振ってその目の和を返す`two_dices`関数を作れ。また、それを何回も繰り返し呼び出して結果が7だった回数を数え、その確率を数値実験的に求めるプログラムを作れ。練習問題(5)(a)の結果に近くなるはずである。

<!-- textlint-enable -->

<!-- textlint-disable jtf-style/4.3.1.丸かっこ（） -->

(7) [random関数](https://docs.python.org/ja/3/library/random.html#random.random)によって得られる乱数を2個足して得られる値についてヒストグラムを作り、練習問題(5)(b)で求めた分布に近くなるか確かめよ。

<!-- textlint-enable -->

## 脚注

<a name="cite_note-1"></a>1.&nbsp;[^](#cite_ref-1)
暗号への利用などで「真の乱数」が必要な場合、ユーザー入力のタイミングや、熱雑音などを用いたハードウェア乱数生成器が用いられる。

<a name="cite_note-2"></a>2.&nbsp;[^](#cite_ref-2)
NumPyにも疑似乱数を扱う[numpy.randomモジュール](https://numpy.org/doc/stable/reference/random/index.html)がある。

<!-- textlint-disable ja-technical-writing/sentence-length -->

<a name="cite_note-3"></a>3.&nbsp;[^](#cite_ref-3)
M. Matsumoto and T. Nishimura, *Mersenne Twister: A 623-dimensionally equidistributed uniform pseudorandom number generator*, [*ACM Trans. Model. Comput. Simul.* 8 (1998) 3-30](https://doi.org/10.1145/272991.272995).

<!-- textlint-enable -->

<a name="cite_note-4"></a>4.&nbsp;[^](#cite_ref-4)
サイコロが「ランダム」であるためには、等確率で目が出ることだけではなく、出る目の順番に規則性がない（たとえば前の目と次の目の間に相関がない）ことも必要である。しかし、ここではサイコロの目の頻度分布だけを考える。

<a name="cite_note-5"></a>5.&nbsp;[^](#cite_ref-5)
数学でいうところの内包的表記（たとえば、$\{ 2x | x\in\mathbb{N} \}$）と似た構文となっている。

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

一般にはもっと複雑な形を取れる（[ここ](https://docs.python.org/ja/3/reference/expressions.html#displays-for-lists-sets-and-dictionaries)を参照）。たとえば、

<!-- textlint-enable -->

In [None]:
# 2番目のタクシー数(n == a ** 3 + b ** 3 == c ** 3 + d ** 3)を求める。
[
    (n, a, b, c, d)
    for n in range(1, 2000)
    for a in range(1, int(n ** (1 / 3)) + 1)
    for b in range(1, min(int((n - a) ** (1 / 3)), a) + 1)
    if a**3 + b**3 == n
    for c in range(a + 1, int(n ** (1 / 3)) + 1)
    for d in range(1, min(int((n - c) ** (1 / 3)), c) + 1)
    if c**3 + d**3 == n
]

<a name="cite_note-6"></a>6.&nbsp;[^](#cite_ref-6)
[range](https://docs.python.org/ja/3/library/stdtypes.html#range)は引数に整数しか受け付けないので、`range(0.5, 7)`はエラーとなる。

<!-- textlint-disable ja-technical-writing/max-ten,ja-technical-writing/sentence-length -->

<a name="cite_note-7"></a>7.&nbsp;[^](#cite_ref-7)
ちなみに素粒子物理学での分野では、「発見」には5$\sigma$の確かさが必要とされる。3$\sigma$は「兆候」と呼ばれる。「兆候」程度では、解析に用いる実験のデータ量が増加するとともに、いつの間にか消えてしまうことも多い。2012年の[ヒッグス粒子の「発見」](https://www.natureasia.com/ja-jp/ndigest/v9/n9/%E3%83%92%E3%83%83%E3%82%B0%E3%82%B9%E7%B2%92%E5%AD%90%E3%81%AE%E7%99%BA%E8%A6%8B%E3%81%A8%E4%BB%8A%E5%BE%8C/37779)は、ある日突然ヒッグス粒子が見つかったわけではなく、膨大なデータの解析から統計的に5$\sigma$の確かさでヒッグス粒子が存在するという結論に至った、ということである。

<!-- textlint-enable -->

「兆候」や「発見」が実験グループによって発表されると、すぐにそれを説明する理論についての論文が多数現れる。このような論文の[現れ方を調べた論文](https://arxiv.org/abs/1603.01204)すらある。さて、2022年4月8日に出版された、米国フェルミ研究所の[テバトロン](https://ja.wikipedia.org/wiki/%E3%83%86%E3%83%90%E3%83%88%E3%83%AD%E3%83%B3)実験のCDFグループの[解析結果](https://www.science.org/doi/10.1126/science.abk1781)が物議を醸している。それによると、素粒子の1つであるWボソンの質量を精密に測定したところ、素粒子物理学の標準模型で許されている値の範囲から7$\sigma$ずれているという。当然、この大きなずれを理論的に説明しようとする論文が[多数発表されている](https://inspirehep.net/literature?q=refersto%3Arecid%3A2064224&subject=Phenomenology-HEP)（2022年5月23日時点で100本以上）。ただし、今回のCDFグループの結果は、過去の様々な実験グループの結果と食い違っている（同じくテバトロンのもう1つの実験グループであるDØグループの結果とも食い違っている）。確固たる結論に至るには、ほかの実験グループによるさらなる追試と検証が必要だろう。

<a name="cite_note-8"></a>8.&nbsp;[^](#cite_ref-8)
ベイズ統計において、事前確率分布を一様分布としたときの事後確率分布。

<a name="cite_note-9"></a>9.&nbsp;[^](#cite_ref-9)
静止系での中性子の平均寿命は$\tau = 879.4 \pm 0.6$秒。

<!-- textlint-disable ja-technical-writing/sentence-length -->

- P.A. Zyla *et al.* (Particle Data Group), *Review of Particle Physics*, [*Prog. Theor. Exp. Phys.* 2020, 083C01 (2020)](https://doi.org/10.1093/ptep/ptaa104).

<!-- textlint-enable -->

<!-- textlint-disable jtf-style/1.1.1.本文 -->

<a name="cite_note-10"></a>10.&nbsp;[^](#cite_ref-10)
つまり、与えられた平均、標準偏差、サンプルサイズで正規分布のヒストグラムを作ってください。

<!-- textlint-enable -->

<a name="cite_note-11"></a>11.&nbsp;[^](#cite_ref-11)
3つの教科の平均点がそれぞれ40点、50点、60点なので、合計点の平均は150点になるはずである。

<!-- textlint-disable
ja-technical-writing/ja-no-mixed-period
-->

<a name="cite_note-12"></a>12.&nbsp;[^](#cite_ref-12)
たとえば、3000人を2つのグループA（平均点$s_A$点、標準偏差10点）とグループB（平均点$s_B$点、標準偏差10点）に分け、各グループの人数を適切に調整する。グループAの人数を$n_A$、グループBの人数を$n_B$とすると、

<!-- textlint-enable -->

$$
n_A + n_B = 3000, \qquad
\frac{s_A n_A + s_B n_B}{n_A + n_B} = 50, \qquad
n_A > n_B > 0, \tag{19}
$$

でなければならない。

<!-- textlint-disable ja-technical-writing/sentence-length,ja-technical-writing/max-ten,ja-engineering-paper/prh,ja-technical-writing/ja-no-weak-phrase -->

<a name="cite_note-13"></a>13.&nbsp;[^](#cite_ref-13)
確率密度関数は英語で[probability density function](https://mathworld.wolfram.com/ProbabilityDensityFunction.html)なのでPDFと略される。PDF（probability density function）の理論を使ってPDF（[parton distribution function](http://www.scholarpedia.org/article/Bjorken_scaling#Scaling_Behavior_in_QCD-Factorization_and_Dimensional_Transmutation)）を議論している論文をPDF（[portable document format](https://ja.wikipedia.org/wiki/Portable_Document_Format)）形式のファイルで読むことになっても混乱してはいけない。また、"[probability distribution function](https://en.wikipedia.org/wiki/Probability_distribution_function)"という言葉は、文脈によってCDF（[cumulative distribution function](https://mathworld.wolfram.com/DistributionFunction.html)）、PMF（probability mass function）、もしくはPDF（probability density function）の意味らしいが、やはり混乱してはいけない。ちなみに、parton distribution functionは（複合）粒子内にパートンを見つけるprobability density functionみたいなものである（確率の和が1とは限らないが）。パートン分布（parton distribution）をパートン密度（parton density）と呼ぶこともあるので、その関数をパートン密度関数（parton density function）と呼ぶ人もいる。もはやなにがなんだか分からないかもしれないが、このような脚注に惑わされてはいけない。

<!-- textlint-enable -->