<a href="https://colab.research.google.com/github/SY-256/anomaly_detection/blob/main/notebook/chapter4_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pythonによる確率分布の実装

## 正規分布

In [None]:
# 正規分布の確率密度関数の出力
import numpy as np
from scipy import stats

x = np.linspace(-3.5, 3.5, 200)
MU = 0 # 平均パラメータ
SIGMA = 1 # 標準偏差パラメータ
px = stats.norm.pdf(x, loc=MU, scale=SIGMA) # 確率密度関数を出力

In [None]:
import matplotlib.pyplot as plt
# 正規分布の可視化

# 確率密度関数をプロットする関数
def plot_pdf(x, px, title, params):
    plt.plot(x, px)
    plt.title(f'{title} ({", ".join([f"{k}={v}" for k, v in params.items()])})')
    plt.xlabel("x")
    plt.ylabel("Probability Density")
    plt.show()

plot_pdf(x, px, "Normal Distribution", params={"mu": MU, "sigma": SIGMA})

## 対数正規分布

In [None]:
MU = 0
SIGMA = 1
LOC = 0 # x軸方向のオフセット
# 描画するx軸用のデータ生成（0~5の範囲の実数）
x = np.linspace(0, 5, 200)
# 確率密度関数を出力
px = stats.lognorm.pdf(x, s=SIGMA, scale=np.exp(MU), loc=LOC)

# プロット
plot_pdf(x, px, "Log-Normal Distribution", params={"mu": MU, "sigma": SIGMA, "loc": LOC})

## カイ二乗分布

In [None]:
x = np.linspace(0, 20, 200)

DF = 4 # 自由度パラメータk
# 確率密度関数を出力
px = stats.chi2.pdf(x, df=DF)

# プロット
plot_pdf(x, px, "Chi-Squared Distribution", params={"df": DF})

## スチューデントのt分布

In [None]:
x = np.linspace(-3.5, 3.5, 200)

DF = 2 # 自由度パラメータk
SCALE = 1 # x軸方向の拡大倍率
LOC = 0 # x軸方向のオフセット
# 確率密度関数を出力
px = stats.t.pdf(x, df=DF, scale=SCALE, loc=LOC)

# プロット
plot_pdf(x, px, "Student\'s t Distribution", params={"df": DF, "scale": SCALE, "loc": LOC})

## 二項分布

In [None]:
# 確率質量関数をプロットする関数
def plot_pmf(x, px, title, params):
    plt.stem(x, px, basefmt="grey")
    plt.title(f'{title} ({", ".join([f"{k}={v}" for k, v in params.items()])})')
    plt.xlabel("x")
    plt.ylabel("Probability Mass")
    plt.show()

N = 10 # 試行回数
MU = 0.5 # 発生率パラメータμ
# 描画するx軸用データの生成（0~Nの範囲内の整数）
x = np.arange(N+1)
# 確率質量関数を出力
px = stats.binom.pmf(x, n=N, p=MU)

# プロット
plot_pmf(x, px, "Binomial Distribution", params={"n": N, "p": MU})

## ポアソン分布

In [None]:
MU = 5 # 期待発生回数パラメータμ
x = np.arange(3*MU + 1) # 0~3MUの範囲内でデータ生成
# 確率質量関数を出力
px = stats.poisson.pmf(x, mu=MU)

# プロット
plot_pmf(x, px, "Poisson Distribution", params={"mu": MU})

## 指数分布

In [None]:
x = np.linspace(0, 10, 200) # 0~10の範囲の実数

LAMBDA = 0.5 # 平均間隔パラメータλ
# 確率密度関数を出力
px = stats.expon.pdf(x, scale=1/LAMBDA)

# プロット
plot_pdf(x, px, "Exponential Distribution", params={"lambda": LAMBDA})

## ガンマ分布

In [None]:
x = np.linspace(0, 20, 200)

K = 3 # 形状母数パラメータk
THETA = 2 # 尺度母数パラメータθ
# 確率密度関数を出力
px = stats.gamma.pdf(x, a=K, scale=THETA)

# プロット
plot_pdf(x, px, "Gamma Distribution", params={"k": K, "theta": THETA})

## 一様分布（連続型）

In [None]:
MIN = 0 # 最小値パラメータmin
MAX = 1 # 最大値パラメータmax
# x軸用のデータ生成（MIN~MAXの範囲の実数）
x = np.linspace(MIN, MAX, 200)
# 確率密度関数を出力
px = stats.uniform.pdf(x, loc=MIN, scale=MAX-MIN)

# プロット
plot_pdf(x, px, "Uniform Distribution", params={"min": MIN, "max": MAX})

## 一様分布（離散型）

In [None]:
MIN = 1 # 最小値パラメータmin
MAX = 6 # 最大値パラメータmax
# x軸用のデータ生成（MIN~MAXの範囲内での整数）
x = np.arange(MIN, MAX + 1)
# 確率質量関数を出力
px = stats.randint.pmf(x, low=MIN, high=MAX+1)

# プロット
plot_pmf(x, px, "Uniform Distribution (Descrete)", params={"min": MIN, "max": MAX})

## 確率密度関数
- 連続型確率分布の確率密度を表す関数

In [None]:
# 確率密度関数の選択例
x = np.linspace(0, 5, 200)

# 確率密度関数を取得（指数分布）
px = stats.expon.pdf(x, scale=2)

# プロット
plot_pdf(x, px, "PDF of Exponential Desitribution", params={"lambda": 1/2})

## 確率質量関数
- 離散型確率分布において入力値を取る確率を表す関数

In [None]:
# 確率質量関数の選択例
x = np.arange(0, 16)

# 確率質量関数を取得（ポアソン分布）
px = stats.poisson.pmf(x, mu=5)

# プロット
plot_pmf(x, px, "PMF of Poisson Destribution", params={"mu": 5})

## 確率密度関数の対数・確率質量関数の対数
- 確率密度関数の対数：確率密度関数の対数を取ったもの
- 確率質量関数の対数：確率質量関数の対数を取ったもの
- 対数尤度を求める際に便利

In [None]:
# 確率密度関数の対数の選択例
x = np.linspace(-3.5, 3.5, 200)

# 確率密度関数の対数を取得（正規分布の対数）
px = stats.norm.logpdf(x, loc=0, scale=1)

# プロット
plot_pdf(x, px, "Log of Normal Distribution", params={"mu": 0, "sigma": 1})

In [None]:
# 確率質量関数の対数の選択
x = np.arange(0, 11)

# 確率質量関数の対数を取得（二項分布の対数）
px = stats.binom.logpmf(x, n=10, p=0.5)

# プロット
plot_pmf(x, px, "Lof of Binomial Distribution", params={"n": 10, "p": 0.5})

## 累積分布関数
- 確率分布において指定した値以下を取る確率を表す関数
- 連続型、離散型いずれの確率関数であっても`cdf`メソッドで選択できる

In [None]:
# 累積分布関数の選択
x = np.arange(0, 16)

# 累積分布関数を取得（ポアソン分布）
px = stats.poisson.cdf(x, mu=5)

# プロット
plot_pmf(x, px, "CDF of Poisson Destribution", params={"mu": 5})

## 生存関数
- 累積分布関数とは逆に、確率分布において指定値より大きな値を取る確率
- 生存確率 = 「1 - 累積分布関数」で表せる

In [None]:
# 生存関数の選択
x = np.linspace(-3.5, 3.5, 200)

# 生存関数の取得（正規分布）
px = stats.norm.sf(x, loc=0, scale=1)

# プロット
plot_pdf(x, px, "Survival Function of Normal Destribution", params={"mu": 0, "sigma": 1})

## パーセント点関数
- パーセント点：累積分布関数がある値となる確率変数の値のこと
- パーセント点関数：パーセント点を入力として確率変数の値を返す関数
- 累積分布関数の逆関数を意味する
- 累積分布関数で指定値になる時の確率変数の値がわかるってこと

In [None]:
# 標準積分布のパーセント点関数（=97.7パーセント点）を求める例
stats.norm.ppf(0.977, loc=0, scale=1)

## 逆生存確率
- 累積分布関数の代わりに生存関数（= 1 - 累積分布関数）の逆関数をとったもの

In [None]:
# 逆生存関数の選択例
stats.norm.isf(0.023, loc=0, scale=1)

- 一般的に教師なし学習の異常検知では、「1-累積分布関数」すなわち生存関数がターゲットとする誤報率と等しくなるように閾値を調整する
- ターゲットとする誤報率が1%であれば、モデルの確率分布（または異常度の確率分布）の逆生存関数の入力に`0.01`を渡すことで閾値を決めることができる