<a href="https://colab.research.google.com/github/tomonari-masada/course2024-stats1/blob/main/04_random_numbers_in_scipy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 乱数の生成
* scipyを使うと、いくつかの確率分布については、それに従う乱数を発生させることができる。
  * https://docs.scipy.org/doc/scipy/tutorial/stats.html#random-number-generation
  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

## 乱数の初期化

### random number generatorの作成
* scipyの乱数生成はNumPyのそれに依存している。
* よって、NumPyでのrandom number generator作成方法をそのまま使う。
 * https://numpy.org/doc/stable/reference/random/generator.html#numpy.random.Generator

In [None]:
rng = np.random.default_rng(seed=42)
rng

### random number generatorの使い方
* NumPyの場合は、以下のようにしてrandom number generatorを使う。

* 例１: 一様分布

In [None]:
arr1 = rng.random((3, 3))
arr1

* 例2: ランダムな置換

In [None]:
x = rng.permuted(np.arange(10))
x

## ベルヌーイ分布

* 二つのアイテム0と1があるとする。
* アイテム1の出現確率が0.3のベルヌーイ分布を考える。

* このベルヌーイ分布に従う乱数を1000個発生させる。

In [None]:
from scipy.stats import bernoulli
p = 0.3
r = bernoulli.rvs(p, size=1000, random_state=rng)

* 発生させた乱数の値の分布を描いてみる。
  * アイテム1の割合がほぼ0.3になっているはず。

In [None]:
import pandas as pd
pd.DataFrame({"outcomes":r}).value_counts().plot.bar();

* ベルヌーイ分布に従う「乱数」を自前で生成する方法
  * 一様乱数を利用する。

In [None]:
def bernoulli_trial(p, rng):
  if rng.random() < p:
    return 1
  else:
    return 0

In [None]:
outcomes = list()
for _ in range(1000):
  outcomes.append(bernoulli_trial(0.3, rng))
outcomes = np.array(outcomes)
pd.DataFrame({"outcomes":outcomes}).value_counts().plot.bar();

## 二項分布

* 二項分布に従う「乱数」を生成するには・・・
  * ベルヌーイ試行をn回繰り返すということを・・・
  * 何回も繰り返せばよい。
  * つまり、「乱数」というよりも、「ランダムな長さnのアイテム列」をたくさん生成することになる。

* 試行回数が8でアイテム1の出現確率が0.4の二項分布を考える。

* 確率質量関数を描いてみる。

In [None]:
from scipy.stats import binom

n, p = 8, 0.4
x = np.arange(n+1)
plt.plot(x, binom.pmf(x, n, p), 'bo')
plt.vlines(x, 0, binom.pmf(x, n, p), colors='b');

* この二項分布に従うランダムな長さnのアイテム列を1000個発生させ、頻度分布を描いてみる。
  * アイテムの出現順が違うだけのアイテム列は、全て同一視される。

In [None]:
r = binom.rvs(n, p, size=1000, random_state=rng)
pd.DataFrame({"outcomes":r}).value_counts().sort_index().plot.bar();

## 単変量正規分布

* 標準正規分布の確率密度関数を描いてみる。

In [None]:
from scipy.stats import norm

x = np.linspace(-3, 3, 601)
plt.plot(x, norm.pdf(x), 'r-');

* 正規乱数を1000個発生させて、相対頻度の分布を描いてみる。
  * `density=True`とする。
  * こうすると、ヒストグラムの下の面積が1になるように描いてくれる。
  * 詳しくは https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html

In [None]:
r = norm.rvs(size=1000)
plt.plot(x, norm.pdf(x), 'r-') # 上と同じ
plt.hist(r, density=True, bins='auto', histtype='stepfilled', alpha=0.2);

* 問: 下の2つの値は、正規分布の、どういう値でしょうか？
  * ヒント: ppf = percent point function

In [None]:
print(norm.ppf(0.01))
print(norm.ppf(0.99))

* 標準正規分布でない正規分布の確率密度関数を描いてみる。
  * 平均パラメータを0でない適当な値にする。
  * 標準偏差パラメータも適当な値にする。

In [None]:
# これは標準正規分布
plt.plot(x, norm.pdf(x), 'r-')

# こちらが標準正規分布でない正規分布
loc, scale = 0.2, 0.5
plt.plot(x, norm.pdf(x, loc=loc, scale=scale), 'b-');

* 標準正規分布でない正規分布に従う乱数を発生させる。

In [None]:
r = norm.rvs(size=1000, loc=loc, scale=scale)
plt.plot(x, norm.pdf(x, loc=loc, scale=scale), 'b-')
plt.hist(r, density=True, bins='auto', histtype='stepfilled', alpha=0.2);

* 正規乱数から、任意の正規分布に従う乱数を、作ることができる。
  * 標準偏差を掛けて、平均を足せばよい。

In [None]:
r = rng.normal(size=1000) * scale + loc
plt.plot(x, norm.pdf(x, loc=loc, scale=scale), 'b-')
plt.hist(r, density=True, bins='auto', histtype='stepfilled', alpha=0.2);

## 二変量正規分布

* 二変量なので、密度関数の高さを、平面上に等高線で可視化することにする。

* 等高線図を描く準備
  * xy平面にグリッドを設定する。

In [None]:
x = np.linspace(-3, 3, 601)
y = np.linspace(-3, 3, 601)
X, Y = np.meshgrid(x, y)
pos = np.stack([X, Y], axis=2)

* 二変量正規分布の等高線図

In [None]:
from scipy.stats import multivariate_normal

cov = [[1, 0.2], [0.2, 1]]
ax = plt.subplot(1,1,1)
ax.contourf(X, Y, multivariate_normal.pdf(pos, cov=cov))
ax.set_aspect('equal');

* 二変量正規分布に従う「乱数」の散布図を描く。
  * 二変量なので、「乱数」と言うより、「ランダムな二次元ベクトル」を発生させることになる。

In [None]:
r = multivariate_normal.rvs(size=3000, cov=cov, random_state=rng)
ax = plt.subplot(1,1,1)
ax.plot(r[:,0], r[:,1], 'o', alpha=0.1)
ax.axis('equal');

# 本日の課題
* 適当に、二変量正規分布を設定する。
  * つまり、平均ベクトルと、共分散行列を設定する。
* まず、その二変量正規分布の確率密度関数の等高線を描く。
  * 上の例を参考にしてください。
* 次に、その二変量正規分布に従う乱数を1000個発生させる。
* そして、サンプルの散布図を描画する。
  * これも、上の例を参考にしてください。
* ただし、`np.random.randn()`だけを使うこと。
  * scipyの`multivariate_normal`は使わないこと。

## 課題のヒント
* ヒント1: まず、正規乱数をたくさん発生させましょう。
  * 何個の正規乱数が必要かは、考えましょう。
* ヒント2: コレスキー分解を使いましょう。
  * コレスキー分解は、以下のようにすると簡単に求まります。

In [None]:
cov = np.array([[1, 0.2], [0.2, 1]])
cov_L = np.linalg.cholesky(cov)
print(cov_L)
print(cov_L @ cov_L.T)