In [2]:
import scipy.stats as ss

### 離散型確率分布

#### 共通のメソッド
- rvs / 乱数を返す
- pmf / 確率質量関数の値を返す
- cdf / 累積確率の値を返す
- stats / 統計量を返す

#### 離散一様分布
確率変数 x が　{low, low+1, ..., high-1} である場合に、すべての事象の起こる確率が等しい分布

In [None]:
# サイコロの目の出る確率を考える
# 4の目が出る確率は
ss.randint.pmf(k=4, low=1, high=7)

# 4 "以下" の目が出る確率を求める
ss.randint.cdf(k=4, low=1, high=7)

# 一様分布の統計量(平均 m, 分散 v, 尖度 s, 歪度 k)
# を求める
ss.randint.stats(low=1, high=7, moments="mvsk")

# 一様分布の乱数を 100 個生成する
ss.randint.rvs(low=1, high=7, size=100)

#### 超幾何分布
二種類 A, B からなる M 個のものがあり、個数の構成をそれぞれ n, M-n とする。
この集団から N 個取り出したときに A が x 個, B が N - x 個である確率

In [5]:
# 計 100 枚のくじがあり、そのうち 20 枚があたり
# 10 回くじを引いてあたりが 4 枚 出たときの確率は？
ss.hypergeom.pmf(k=4, M=100, n=20, N=10)

# 10 回くじを引いてあたりが 4 枚以下である確率は？
ss.hypergeom.cdf(k=4, M=100, n=20, N=10)

# 超幾何分布の統計量 (平均 m, 分散 v) を求める
ss.hypergeom.stats(M=100, n=20, N=10, moments="mv")

# 超幾何分布の乱数を 100 個生成
ss.hypergeom.rvs(M=100, n=20, N=10, size=100)

#### 二項分布
1回の試行あたり2つの結果(仮に成功S, 失敗Fとする)だけが起こる実験において、
それぞれの確率を p, 1-p とする。
このとき、 n 回の試行で起こった S の回数を x とする

In [13]:
# ある野球選手の打率を 0.275 であるとする。
# この選手が 10 打席中 4 打席ヒットを打つ確率を求める
ss.binom.pmf(k=4, n=10, p=0.275)

# 10 打席中 3 打席以上ヒットを打つ確率を求める
# (1 から　2打席以下の累積確率を引く)
1 - ss.binom.cdf(k=2, n=10, p=0.275)

# 二項分布の統計量(平均 m) を求める
ss.binom.stats(n=10, p=0.2, moments="m")

# 二項分布の乱数を 100 個生成する
ss.binom.rvs(n=10, p=0.2, size=100)

#### ポアソン分布
二項分布において、n が大である一方で、p が小である場合の確率分布
ただし、np = 一定 である

In [15]:
# あるメールアドレスには、一日に平均 5 通メールが届く。
# 一日にメールが 8 通届く確率
ss.poisson.pmf(k=8, mu=5)

# 一日にメールが 10 通以上届く確率
1 - ss.poisson.cdf(k=9, mu=5)

# ポアソン分布の統計量(分散 v) を求める
ss.poisson.stats(mu=2, moments="v")

# ポアソン分布の乱数を 100 個生成する
ss.poisson.rvs(mu=2, size=100)

### 連続型確率変数

#### 共通のメソッド
- rvs / 乱数を返す
- pdf / 確率密度関数の値を返す
- cdf / 累積確率の値を返す
- stats / 統計量を返す
- ppf / 指定した下側確率 x におけるパーセント点の確率変数を返す

##### < パーセント点 >
- 右側の面積が x / 100 である点のことを 上側 x パーセント点
- 左側の面積が x / 100 である点のことを 下側 x パーセント点
- 右側と左側を合わせて全体の x / 100 である点のことを 両側 x パーセント点

#### 正規分布
ガウス分布とも呼ばれる、よく使われる確率分布

In [18]:
# 平均2, 標準偏差1 の正規分布の確率変数 x = 4 における
# 確率密度関数を求める
ss.norm.pdf(x=4, loc=2, scale=1)

# 標準正規分布(avg=0, σ^2=1)の
# 確率変数 x = 4 における累積確率を求める
ss.norm.cdf(x=4)

# 平均 1.5, 標準偏差 2 の正規分布の統計量(平均 m, 分散 v)
# を求める
ss.norm.stats(loc=1.5, scale=2, moments="mv")

# 平均 1, 標準偏差 2 の正規分布の乱数を 100 個生成する
ss.norm.rvs(loc=1, scale=2, size=100)

# 平均 0, 標準偏差 0.2 の正規分布の下側90パーセント点を求める
ss.norm.ppf(q=0.9, loc=0, scale=0.2)

#### 指数分布
単位時間中にある事象が発生する平均回数を λ とするとき、
その事象の発生間隔

In [24]:
# λ = 5 の時の指数分布の
# 確率変数 x = 4 における確率密度関数
ss.expon.pdf(x=4, scale=0.2)

# λ = 5 の時の指数分布の
# 確率変数 x = 4 における累積確率
ss.expon.cdf(x=4, scale=0.2)

# λ = 5 の時の指数分布の
# 確率変数の統計量(平均 m) を求める
ss.expon.stats(scale=0.2, moments="m")

# λ = 3 の時の指数分布に従う乱数を 100 個生成する
ss.expon.rvs(scale=1/3, size=100)

# λ = 3 の時の指数分布の
# 下側 90 パーセント点を求める
ss.expon.ppf(q=0.9, scale=1/3)

#### 固定化 (発展)
パラメータを変数に保存できる

In [None]:
# このような使い方ができる
gauss = ss.norm(loc=3, scale=0.7)
gauss.cdf(x=2)
gauss.rvs(size=10)

### NumPy を用いた乱数生成

In [25]:
import numpy as np

#### 離散型確率分布
##### 離散一様分布 (randint)
- np.random.randint(low=a, high=b, size=n)
- low = a, high = b の時の離散一様分布の乱数を n 個生成

##### 超幾何分布 (hypergeometric)
- np.random.hypergeometric(ngood=a, nbad=b, nsample=c, size=n)
- 当たりの数 a, 外れの数 b の中から c 個取り出すときの
- 超幾何分布の乱数を n 個生成

##### 二項分布 (binomial)
- np.random.binomial(n=a, p=b, size=n)
- 試行回数 a, 確率 b の時の二項分布の乱数を n 個生成

##### ポアソン分布 (poisson)
- np.random.poisson(lam=a, size=n)
- 期待値が a の時のポアソン分布の乱数を n 個生成

#### 連続型確率分布
##### 標準正規分布 (randn)
- np.random.randn(n)
- 標準正規分布に従う乱数を n 個生成

##### 正規分布 (normal)
- np.random.normal(loc=a, scale=b, size=n)
- 平均 a 標準偏差 b の正規分布に従う乱数を n 個生成

##### 指数分布 (exponential)
- np.random.exponential(scale=1/a, size=n)
- 平均 a の指数分布に従う乱数を n 個生成

##### 連続一様分布 (rand)
- np.random.rand(n)
- 0 以上 1 未満の連続一様分布に従う乱数を n 個生成