# 乱数

コンピューター・シミュレーションでは乱数をよく使う。なぜなら、
- さまざまな現象は、確率的な要素を含んだ数理モデルで記述される（例：原子核の放射性崩壊、金融市場）、
- 決定論的な数理モデルであっても、正確な値を求めるのが難しいもの（例：多次元積分、最適化問題）について、確率的に多少の誤差を許容して乱数を用いたアルゴリズム（モンテカルロ法）を使えば、比較的簡単に求まることがある、

という理由があるからである。

シミュレーションで使う乱数は、なにかの規則によって確定的に計算された（周期的な）疑似乱数列による**疑似乱数**（pseudorandom number）のである[<sup id="cite_ref-1">[1]</sup>](#cite_note-1)。シミュレーションでの用途を考えると、十分に周期が長くて偏りが少ない品質の「よい」疑似乱数である必要があり、また高速に生成できることが望ましい。Python では疑似乱数の生成に関して [random モジュール](https://docs.python.org/ja/3/library/random.html)が用意されており、デフォルトではメルセンヌ・ツイスタ（Mersenne Twister）[<sup id="cite_ref-2">[2]</sup>](#cite_note-2)というよくテストされた擬似乱数生成器が使われる。

なお、第3回と第5回では、[random モジュール](https://docs.python.org/ja/3/library/random.html)内の [randint 関数](https://docs.python.org/ja/3/library/random.html#random.randint)のみを
```python
from random import randint
```
のようにインポートしたが、今回はいろいろな関数を扱いたいので、

In [None]:
import random

random.randint(1, 6)

のようにして [random モジュール](https://docs.python.org/ja/3/library/random.html)をインポートし、`random.randint` のようにして [random モジュール](https://docs.python.org/ja/3/library/random.html)内の関数を使うことにする[<sup id="cite_ref-3">[3]</sup>](#cite_note-3)。

## 整数の一様分布乱数

まずは [randint 関数](https://docs.python.org/ja/3/library/random.html#random.randint)から始めよう。`random.randint(a, b)` のように整数 $a$ と $b$ を渡すと、$a$ 以上 $b$ 以下のランダムな整数を返す。それぞれの整数が返ってくる確率は均一である（一様分布乱数）。

In [None]:
import random

def dice():  # サイコロの目(1から6)を返す関数
    return random.randint(1, 6)

print(dice())
print(dice())
print(dice())

## 練習問題

(1) 上の `dice` 関数を利用して、サイコロ3回振ってその和を返す関数を作ろうとした。下がその関数（`three_dices`）であるが、何かが間違っている。正しく動くように直せ。

In [None]:
import random

def three_dices():  # サイコロを3回振って、その目の和を返す関数（？）
    return dice() * 3

print(three_dices())
print(three_dices())
print(three_dices())

## 乱数のシード

これまでの例では、乱数を生成して表示すると、毎回違った値が現れた。プログラムのデバッグ（プログラムの誤りを見つけ、修正すること）や計算を再現したいときには、これは不便である。疑似乱数は周期的な数列であるから、次は数列のどの位置から乱数を取り出すということが指定できれば、毎回同じ値を出現させることが可能である。この位置を表す疑似乱数発生器の内部状態を指定するのに使われるのがシード（seed; 種）である。次の例では、[seed 関数](https://docs.python.org/ja/3/library/random.html#random.seed)を使ってシードを指定しているので、何回実行しても同じ疑似乱数列が生成される。

In [None]:
import random

random.seed(123)  # ここで擬似乱数生成器をシード123によって初期化する。

for i in range(10):
    print(random.randint(1, 6))

## ヒストグラムの作成（とリスト内包表記）

ところで、[randint 関数](https://docs.python.org/ja/3/library/random.html#random.randint)から返ってくる乱数は、本当に均一の確率で発生しているのだろうか？何回も乱数を発生させ、ヒストグラムを作って確かめてみよう（第6回参照）[<sup id="cite_ref-4">[4]</sup>](#cite_note-4)。

まずはヒストグラムとして表示するためのデータを作る。サンプルサイズは 100 としてみよう。第6回にやったように、

In [None]:
import random

n = 100  # サンプルサイズ

data = []

for i in range(n):
    data.append(random.randint(1, 6))

としてもよいが、今回はこれと同じようなことを何回も行うので、もう少し短く書いてみよう。それには、[リスト内包表記（list comprehension）](https://docs.python.org/ja/3/tutorial/datastructures.html#list-comprehensions)と呼ばれるものを使う。これは、あるリストを元にして、新しいリストを作り出すという機能である。構文としては、

`[新しいリストの要素となる式 for 元のリストの要素を表す変数 in 元となるリスト]`

となる[<sup id="cite_ref-5">[5]</sup>](#cite_note-5)。元となるリストの要素の数だけ、新しいリストの要素となる式が評価される。例を挙げよう。

In [None]:
[2 * i for i in [1, 2, 3]]  # [1, 2, 3] というリストの要素をそれぞれ2倍して新しいリストを作る。

元となるリストの代わりに、元となる range オブジェクトを指定してもよい。

In [None]:
[2 * i for i in range(1, 4)]

リスト内包表記を用いて、`random.randint(1, 6)` を 100 回呼んでリストを作ってみる。

In [None]:
import random

data = [random.randint(1, 6) for i in range(100)]

新しいリストの要素には元の range オブジェクト内の要素（`i`）をまったく使っていないことに注意しよう。（上で `for` 文を用いてデータを作ったときも、ループ内の処理に `i` を使っていなかった。）使わない変数に `i` などといういかにも意味のありそうな名前を付けるのはもったいないので、このような場合、Python では慣習として `_` という名前がよく使われる。

In [None]:
import random

data = [random.randint(1, 6) for _ in range(100)]  # i なんて贅沢な名前の代わりに _ と呼んでやる

さて、Python っぽいデータの作成方法になってきたところで、ヒストグラムを描いてみよう。

In [None]:
# サイコロのヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import random
import statistics

n = 100

data = [random.randint(1, 6) for _ in range(n)]

print(f'平均 = {statistics.mean(data)}')
print(f'標準偏差 = {statistics.stdev(data)}')

fig, ax = plt.subplots()
ax.hist(data, bins=np.arange(0.5, 7), rwidth=0.8)
plt.show()

ここでは [statistics モジュール](https://docs.python.org/ja/3/library/statistics.html)の [mean 関数](https://docs.python.org/ja/3/library/statistics.html#statistics.mean)と [stdev 関数](https://docs.python.org/ja/3/library/statistics.html#statistics.stdev)を用いて、生成したデータの平均と（標本）標準偏差も計算して表示している。また、ヒストグラムを書くために [Axes オブジェクト](https://matplotlib.org/api/axes_api.html#the-axes-class)の [hist メソッド](https://matplotlib.org/api/_as_gen/matplotlib.axes.Axes.hist.html)を呼び出すときのオプションとして、
- `bins` にビンの区切りとして `[0.5, 1.5, 2.5, ..., 6.5]`（NumPy の [arange 関数](https://numpy.org/doc/stable/reference/generated/numpy.arange.html)を用いて[<sup id="cite_ref-6">[6]</sup>](#cite_note-6)作っている）、
- 棒グラフのように隙間を空けるために `rwidth` に 1.0 より少し小さな値、

を指定している。サンプルサイズが 100 ぐらいだと、まだばらつきが見えるかもしれない。サンプルサイズを増やしていくとヒストグラムのばらつきは見えにくくなる。このとき、**大数の法則**（law of large numbers）の通りに、標本平均は $7/3 = 3.5$、標本標準偏差は $\sqrt{35 / 12} \approx 1.70783$ に近づいていく。

## 練習問題

(2) 上の例でサンプルサイズを十万程度にしてみよう。

## 一様乱数

[random 関数](https://docs.python.org/ja/3/library/random.html#random.random)は、$0$ 以上 $1$ 未満の範囲で連続的に一様分布する（実数の）乱数を返す（平均は $1/2 = 0.5$、標準偏差は $\sqrt{1/12} \approx 0.288675$）。

In [None]:
# 一様乱数のヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

n = 100000

data = [random.random() for _ in range(n)]

print(f'平均 = {statistics.mean(data)}')
print(f'標準偏差 = {statistics.stdev(data)}')

fig, ax = plt.subplots()
ax.hist(data, bins=20)
plt.show()

[random 関数](https://docs.python.org/ja/3/library/random.html#random.random)の結果を線形変換することで、ある実数の範囲に一様分布するような乱数を得ることは容易であり、[random モジュール](https://docs.python.org/ja/3/library/random.html)では [uniform 関数](https://docs.python.org/ja/3/library/random.html#random.uniform)として提供されている。

## 正規乱数

$-\infty$ から $\infty$ の範囲で正規分布（normal distribution; ガウス分布（Gaussian distribution）とも呼ぶ）に従う確率分布で発生する乱数を正規乱数と呼ぶ。

ここで、平均 $\mu$ 、標準偏差 $\sigma$ の正規分布は次のように与えられる：

$$
f(x; \mu, \sigma) = \frac{1}{\sqrt{2\pi} \, \sigma} \exp\left[ - \frac{(x - \mu)^2}{2 \sigma^2} \right] .
\tag{1}
$$

In [None]:
# 正規分布のグラフ

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

mu = 0
sigma = 1

x = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 100)
y = 1 / (np.sqrt(2 * np.pi) * sigma) * np.exp(- (x - mu) ** 2 / (2 * sigma ** 2))

fig, ax = plt.subplots()
ax.plot(x, y)
ax.set_xlabel(r'$x$')
ax.set_ylabel(r'$f(x)$')
ax.grid()
fig.text(0.7, 0.76, fr'$\mu = {mu}$')
fig.text(0.7, 0.70, fr'$\sigma = {sigma}$')
plt.show()

平均 $\mu$ 、標準偏差 $\sigma$ の正規分布から無作為標本をとると、平均 $\mu$ からのずれが $\pm 1\sigma$ 以下となる確率がおよそ $68.27\%$、$\pm 2\sigma$ 以下では $95.45\%$、$\pm 3\sigma$ 以下では $99.73\%$、$\pm 4\sigma$ 以下では $99.994\%$、$\pm 5\sigma$ 以下では $99.99994\%$となる[<sup id="cite_ref-7">[7]</sup>](#cite_note-7)。

正規乱数を発生させるには、[gauss 関数](https://docs.python.org/ja/3/library/random.html#random.gauss)を使えばよい[<sup id="cite_ref-8">[8]</sup>](#cite_note-8)。

In [None]:
# 正規乱数のヒストグラム

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import random
import statistics

n = 100000

mu = 0
sigma = 1

data = [random.gauss(mu, sigma) for _ in range(n)]

print(f'平均 = {statistics.mean(data)}')
print(f'標準偏差 = {statistics.stdev(data)}')

fig, ax = plt.subplots()
ax.hist(data, bins=np.linspace(mu - 4 * sigma, mu + 4 * sigma, 20))
plt.show()

## 練習問題

(3) [random モジュール](https://docs.python.org/ja/3/library/random.html)には一様乱数や正規乱数のほかにも、[さまざまな確率分布で乱数を発生させることのできる関数](https://docs.python.org/ja/3/library/random.html#real-valued-distributions)が用意されている。これらを発生させて、ヒストグラムを作ってみよう（ビンの数は 20 程度にとればよい）。例えば、

- [三角分布](https://ja.wikipedia.org/wiki/%E4%B8%89%E8%A7%92%E5%88%86%E5%B8%83)：`random.triangular(0, 1, 0.5)`。
- [ベータ分布](https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%BC%E3%82%BF%E5%88%86%E5%B8%83)：`random.betavariate(8, 4)`。例えばこれは、表が出る確率がまったく不明であるコインを10回投げて、表が7回、裏が3回出たときの、表の出る確率の予測値の分布[<sup id="cite_ref-9">[9]</sup>](#cite_note-9)と言える（0.7にピークができる）。
- [指数分布](https://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E5%88%86%E5%B8%83)：`random.expovariate(879)`。例えばこれは、平均寿命が $\lambda=879$ 秒である粒子[<sup id="cite_ref-10">[10]</sup>](#cite_note-10)の寿命の分布を表す。

## 中心極限定理

平均が $\mu$ 、標準偏差 $\sigma$ である母集団から無作為抽出した標本の平均 $\bar{\mu}$ は、そのサンプルサイズ $n$ を大きくしていくと、母平均 $\mu$ へと近づく（大数の法則）。このとき、何回も標本 $n$ 個をとってその平均をとることを考えると、毎回得られる標本平均にはばらつきがあるが、その分布は $n$を大きくするにつれて平均 $\mu$、標準偏差 $\sigma / \sqrt{n}$ の正規分布に近づく（中心極限定理；central limit theorem）。この事実から、例えば日本人を 1000 人無作為に選び、その身長の標本平均をとった時、その値がどれくらいの確かさで日本人全体の身長の平均と近いかを論ずることができるのである。

次の例では、$[0, 1)$ の範囲の一様乱数をサンプルサイズ$n$回だけ足した部分和（$n$ で割って標本平均にしていない）を計算し、それを$m$回繰り返すことで、その部分和がどのように分布するかを調べている。その値の分布は、$n$を大きくすると平均 $n \mu$、標準偏差 $\sqrt{n} \sigma$ の正規分布に近づく。特に $n = 12$ のとき、（元の一様分布が平均 $1/2$、標準偏差 $\sqrt{1/12}$ であるから）、平均 $6$、標準偏差 $1$ の正規分布に近いものとなる。

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics

n = 12
m = 100000

def sample(n):
    result = 0
    for _ in range(n):
        result += random.random()
    return result

data = [sample(n) for _ in range(m)]

print(f'平均 = {statistics.mean(data)}')
print(f'標準偏差 = {statistics.stdev(data)}')

fig, ax = plt.subplots()
ax.hist(data, bins=20)
plt.show()

## 演習課題

(1) 試験の成績をシミュレーションしてみよう。平均点が 50 点、標準偏差が 10 点となる受験者 1000 人分の疑似成績データを、正規分布を仮定して発生させよ。そのデータから、実際に平均点、標準偏差を計算して表示し、度数分布のグラフを作れ（ビンの数は 20 程度でよい）。ただし、実際の試験の点数は整数で下限と上限があるべきだが、ここでは点数は（正規分布のように）実数で、$- \infty$から$\infty$の値を取りうるものだとしてよい[<sup id="cite_ref-11">[11]</sup>](#cite_note-11)。

In [None]:
# 課題解答8.1  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics




(2) 課題(1)と同様にして、グループA（1000 人、平均点 40 点、標準偏差 10 点）、グループB（1000 人、平均点 50 点、標準偏差 10 点）、グループC（1000 人、平均点 60 点、標準偏差 10 点）の疑似成績データを正規分布を仮定して発生させよ。そのデータから、グループA、B、C**全体（計 3000 人）での**[<sup id="cite_ref-12">[12]</sup>](#cite_note-12)平均点、標準偏差を計算して表示し、度数分布のグラフを作れ。

In [None]:
# 課題解答8.2  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics




(3) 試験の点数は必ずしも正規分布をしているわけではない。むしろ二つの山を成していることが多い。今度は、3000 人の疑似成績データを、平均点が 50 点で、60 点に大きな山があり、30 点に小さな山があるような分布になるように作ってみよう[<sup id="cite_ref-13">[13]</sup>](#cite_note-13)。そのデータから、実際に平均点を計算して表示し、度数分布のグラフを作れ。

In [None]:
# 課題解答8.3  <-- 提出する際に、この行を必ず含めること。

%matplotlib inline
import matplotlib.pyplot as plt
import random
import statistics




## 付録

$X = x_i$ となる確率 $P(X = x_i)$ が $p_i$ である離散型確率変数 $X$ を考える。すべての場合についての和を取ると、確率の和は $\sum_i p_i = 1$ である。このとき、$X$ の期待値 $E[X]$ と分散 $V[X]$ は、

$$
E[X] = \sum_i p_i x_i \equiv \mu,
\tag{2}
$$

と、

$$
V[X] = E[(X - \mu)^2] = \sum_i p_i (x_i - \mu)^2 \equiv \sigma^2,
\tag{3}
$$

で定義される。分散 $V[X]$ の平方根をとった $\sigma$ が標準偏差である。

$X$ が連続型確率変数のときは、確率密度関数[<sup id="cite_ref-14">[14]</sup>](#cite_note-14) $f(x)$ を導入して、$X$ が区間 $a$ と $b$ の間の値をとる確率は、

$$
P(a \le X \le b) = \int_a^b f(x) dx ,
\tag{4}
$$

と書ける（あるいは微分形で、$X$ が区間 $[x,x+dx]$の間の値をとる確率は $f(x) dx$ である、と言ってもよい）。ただし、

$$
\int_{-\infty}^{\infty} f(x) dx = 1 ,
\qquad
f(x) \ge 0 ,
\tag{5}
$$

である。連続型確率変数の場合の期待値と分散は、式(2)と(3)の総和を積分に置き換える（$\sum_i \to \int_{-\infty}^{\infty}$ 、 $p_i \to f(x) dx$）ことによって、

$$
E[X] = \int_{-\infty}^\infty x f(x) dx \equiv \mu ,
\tag{6}
$$

$$
V[X] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx \equiv \sigma ,
\tag{7}
$$

と定義される。

確率変数 $X$ と $Y$、定数 $c$ に対し、次の公式を導くことができる。

$$
E[aX] = a E[X] ,
\tag{8}
$$

$$
E[X+a] = E[X] + a ,
\tag{9}
$$

$$
E[X + Y] = E[X] + E[Y] ,
\tag{10}
$$

$$
V[X] = E[X]^2 - \bigl\{ E[X] \bigr\}^2 ,
\tag{11}
$$

$$
V[aX] = a^2 V[X] ,
\tag{12}
$$

$$
V[X+a] = V[X] ,
\tag{13}
$$

$$
V[X + Y] = V[X] + V[Y] + 2 \text{Cov}(X, Y) .
\tag{14}
$$

ただし、共分散 $\text{Cov}(X, Y)$ は、

$$
\text{Cov}(X,Y) = E\Bigl[ \bigl(X - E[X]\bigr) \bigl(Y - E[Y]\bigr) \Bigr] ,
\tag{15}
$$

で定義され、$X$ と $Y$ が無相関であれば $0$ 、つまりこのとき、$V[X + Y] = V[X] + V[Y]$ となる。

また、離散型確率変数 $X$ と $Y$ に対し、$Z = X + Y$ が $Z = k$ となる確率 $P(Z = k)$ は、

$$
P(Z=k) = \sum_t P(X = t) P(Y = k - t) ,
\tag{16}
$$

のように畳み込み和で与えられる。同様に、確率密度関数がそれぞれ $f(x)$ と $g(y)$ である 連続型確率変数 $X$ と $Y$ に対して、 $Z = X + Y$ の確率密度関数 $h(z)$ は、

$$
h(z) = \int_{-\infty}^\infty f(t) g(z - t) dt ,
\tag{17}
$$

のような畳み込み積分で与えられる。

## 練習問題

(4) 次の場合の期待値と分散をその定義により計算せよ。

(a) 均一な確率で 1 から 6 までの目が出るサイコロ。

(b) 次のような確率密度関数に従う連続的確率変数。

$$
f(x) =
\begin{cases}
1 , & \text{ for } 0 \le x \le 1 , \\
0 , & \text{ otherwise} .
\end{cases}
\tag{18}
$$

(5) 次の場合の確率、確率密度関数を導出せよ。

(a) 均一な確率で 1 から 6 までの目が出るサイコロを 2 回振ったときに、その目の和が 7 となる確率。

(b) 式(18)で与えられた確率密度関数に従う 2 個の確率密度変数 $X$ と $Y$ の和 $Z = X + Y$ の確率密度関数。

## 脚注

<span id="cite_note-1">1.</span> [^](#cite_ref-1)
暗号への利用などで「真の乱数」が必要な場合、ユーザー入力のタイミングや、熱雑音などを用いたハードウェア乱数生成器が用いられる。

<span id="cite_note-2">2.</span> [^](#cite_ref-2)
M. Matsumoto and T. Nishimura, *Mersenne Twister: A 623-dimensionally equidistributed uniform pseudorandom number generator*, [*ACM Trans. Model. Comput. Simul.* 8 (1998) 3-30](https://doi.org/10.1145/272991.272995).

<span id="cite_note-3">3.</span> [^](#cite_ref-3)
NumPy にも疑似乱数を扱う [numpy.random モジュール](https://numpy.org/doc/stable/reference/random/index.html)がある。

<span id="cite_note-4">4.</span> [^](#cite_ref-4)
サイコロが「ランダム」であるためには、等確率で目が出ることだけではなく、出る目の順番に規則性がない（例えば前の目と次の目の間に相関がない）ことも必要である。ここではサイコロの目の頻度分布だけを考える。

<span id="cite_note-5">5.</span> [^](#cite_ref-5)
一般にはもっと複雑な形を取れる（[ここ](https://docs.python.org/ja/3/reference/expressions.html#displays-for-lists-sets-and-dictionaries)を参照）。例えば、
```python
# 2番目のタクシー数(n == a ** 3 + b ** 3 == c ** 3 + d ** 3)を求める。
[(n, a, b, c, d) for n in range(1, 2000)
                 for a in range(1, int(n ** (1 / 3)) + 1)
                 for b in range(1, min(int((n - a) ** (1 / 3)), a) + 1)
                 if a ** 3 + b ** 3 == n
                 for c in range(a + 1, int(n ** (1 / 3)) + 1)
                 for d in range(1, min(int((n - c) ** (1 / 3)), c) + 1)
                 if c ** 3 + d ** 3 == n]
```

<span id="cite_note-6">6.</span> [^](#cite_ref-6)
range オブジェクトは第1引数に整数しか受け付けないので、`range(0.5, 7)`はエラーとなる。

<span id="cite_note-7">7.</span> [^](#cite_ref-7)
素粒子物理学での分野では、「発見」には 5$\sigma$ の確かさが必要とされる。2012年のヒッグス粒子の「発見」は、ある日突然ヒッグス粒子が見つかったわけではなく、膨大なデータの解析から統計的に 5$\sigma$ の確かさでヒッグス粒子が存在するという結論に至った、ということである。

<span id="cite_note-8">8.</span> [^](#cite_ref-8)
[gauss 関数](https://docs.python.org/ja/3/library/random.html#random.gauss)と [normalvariate 関数](https://docs.python.org/ja/3/library/random.html#random.normalvariate)があるが、実装が異なる。（CPython 3.6では）[前者](https://github.com/python/cpython/blob/7df32f844efed33ca781a016017eab7050263b90/Lib/random.py#L575)は[ボックス＝ミュラー法](https://ja.wikipedia.org/wiki/%E3%83%9C%E3%83%83%E3%82%AF%E3%82%B9%EF%BC%9D%E3%83%9F%E3%83%A5%E3%83%A9%E3%83%BC%E6%B3%95)を使っており、[後者](https://github.com/python/cpython/blob/7df32f844efed33ca781a016017eab7050263b90/Lib/random.py#L399)より高速なようである（が、次の値をキャッシュする際にロックを使っていないのでスレッドセーフではない）。

<span id="cite_note-9">9.</span> [^](#cite_ref-9)
ベイズ統計において、事前確率分布を一様分布としたときの事後確率分布。

<span id="cite_note-10">10.</span> [^](#cite_ref-10)
静止系での中性子の平均寿命は $\tau = 879.4 \pm 0.6$ 秒。
- M. Tanabashi *et al.* (Particle Data Group), *Review of Particle Physics*, [*Phys. Rev.* **D** 98 (2018) 030001](https://doi.org/10.1103/PhysRevD.98.030001) and [2019 update](http://pdg.lbl.gov/index.html).

<span id="cite_note-11">11.</span> [^](#cite_ref-11)
つまり、与えられた平均、標準偏差、サンプルサイズで正規分布のヒストグラムを作ってください。

<span id="cite_note-12">12.</span> [^](#cite_ref-12)
リストの連結を思い出そう。

<span id="cite_note-13">13.</span> [^](#cite_ref-13)
例えば、3000 人を二つのグループA（平均点 60 点、標準偏差 10 点）とグループB（平均点 30 点、標準偏差 10 点）に分け、各グループの人数を適切に調整すると…。

<span id="cite_note-14">14.</span> [^](#cite_ref-14)
英語で [probability density function](https://mathworld.wolfram.com/ProbabilityDensityFunction.html) なので PDF と略される。PDF (probability density function) の理論を使って PDF ([parton distribution function](http://www.scholarpedia.org/article/Bjorken_scaling#Scaling_Behavior_in_QCD-Factorization_and_Dimensional_Transmutation)) を議論している論文を PDF ([portable document format](https://ja.wikipedia.org/wiki/Portable_Document_Format)) 形式のファイルで読むことになっても混乱してはいけない。また、 "[probability distribution function](https://en.wikipedia.org/wiki/Probability_distribution_function)" は、文脈によって CDF ([cumulative distribution function](https://mathworld.wolfram.com/DistributionFunction.html))、 PMF (probability mass function)、もしくは PDF (probability density function) の意味らしいが、やはり混乱してはいけない。（ちなみに、parton distribution function は、（複合）粒子内にパートンを見つける probability density function みたいなものである（確率の和が1とは限らないが）。もはや、なにがなんだか分からないかもしれないが、このような脚注に惑わされてはいけない。）