## モジュールのimport

In [None]:
# Module
import sys
sys.path.append("../")
from mod.numpyro_utility import *

# DataFrame, Numerical computation
import polars as pl
pl.Config(fmt_str_lengths = 100, tbl_cols = 100, tbl_rows = 100)
import pandas as pd
import numpy as np
import jax
import jax.numpy as jnp
#import jax.random as random

# ベイズ推定
import numpyro
import numpyro.distributions as dist # 確率分布

# plot
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import arviz as az

# plotの設定
import json
def to_rc_dict(dict):
    """
    jsonファイルのdictを読み込む
    """
    return {f'{k1}.{k2}': v for k1,d in dict.items() for k2,v in d.items()}

file_path = "../mod/rcParams.json"
with open(file_path) as f: 
    plt.rcParams.update(to_rc_dict(json.load(f)))

# 日本語 or 英語の2択
import japanize_matplotlib
#plt.rcParams['font.family'] = "Times New Roman"

## 5.4 潜在変数モデル

### 5.4.1 問題設定
versicolor と virginica のがく片の幅の分布から2つの正規分布の混在比率を同時に求める。

### 5.4.2 データ準備
がく片の長さについて調べるので目的変数の $Y$ とする。

In [None]:
# アイリスデータセットの読み込み
df = sns.load_dataset('iris')

# 花の種類をsetosa以外の２種類に絞り込む
df_exclude_setosa = df.query('species != "setosa"')

# インデックスを0から振り直す
df_exclude_setosa = df_exclude_setosa.reset_index(drop=True)

# petal_widthの項目値をx_dataにセット
Y = jnp.array(df_exclude_setosa['petal_width'].values, dtype = float)
display(Y)

In [None]:
# 色分けしないでプロットする。
bins = np.arange(0.8, 3.0, 0.1)
fig, ax = plt.subplots()
sns.histplot(bins=bins, x=Y)
ax.set_xlabel('petal_width')
ax.xaxis.set_tick_params(rotation=90)
ax.set_title('petal_widthのヒストグラム')
ax.set_xticks(bins)
plt.tight_layout()
plt.show()

In [None]:
# 花の種類の答えのプロット
bins = np.arange(0.8, 3.0, 0.1)
fig, ax = plt.subplots()
sns.histplot(data=df_exclude_setosa, bins=bins, x='petal_width',
    hue='species', kde=True)
ax.xaxis.set_tick_params(rotation=90)
ax.set_title('petal_widthのヒストグラム')
ax.set_xticks(bins);

### 5.4.3 確率モデル定義
数式で整理して、プログラミングで実装する。

1. がく片の長さは花の種類ごとの正規分布に従うと仮定する。
    * $y_{i} \sim N(\mu[s], \tau[s]^2)$
    * $s$ が花の種類の通し番号 $s = \{ 0, 1 \}$
    * 参考書籍で標準偏差の逆数である精度 $\tau$ を使用していたので踏襲する
1. 正規分布のパラメータは下記の分布に従うと仮定する。
    * $\mu[s] \sim N(0, 10^2)$
    * $\tau[s] \sim HN(10^2)$
1. 花の種類の所属確率はベルヌーイ分布に従うと仮定する。
    * $s \sim Bern(s∣p)$
1. 所属確率 $p$ の事前分布は一様分布 $[0,1]$ と仮定する。

In [None]:
def model_latent_variable_models(Y = None, N = None, n_groups = None):
    '''
        5.4節の2種類の花のがく片の幅の潜在変数モデル
    '''
    # 4. 所属確率 $p$ の事前分布は一様分布 $[0,1]$ と仮定する。
    p = numpyro.sample("p", dist.Uniform(low = 0, high = 1))
    # 3. $s \sim Bern(s∣p)$
    with numpyro.plate("N", N):
        s = numpyro.sample("s", dist.Bernoulli(probs = p))
    # 2. 正規分布のパラメータは下記の分布に従うと仮定する。
    with numpyro.plate("group", n_groups):
        # 2.1. $\mu[s] \sim N(0, 10^2)$
        μ_s = numpyro.sample("μ_s", dist.Normal(loc = 0, scale = 10))
        # 2.2. $\tau[s] \sim HN(10^2)$
        τ_s = numpyro.sample("τ_s", dist.HalfNormal(scale = 10))
        σ_s = numpyro.deterministic("σ_s", jnp.sqrt(1.0 / (τ_s + 0.001)))

    # 1. がく片の長さは花の種類ごとの正規分布に従うと仮定する。
    with numpyro.plate("N", N):
        # 1. $y_{i} \sim N(\mu, \sigma^2)$
        numpyro.sample("Y", dist.Normal(loc = μ_s[s], scale = σ_s[s]), obs = Y)

In [None]:
model_args = {
    "Y": Y,
    "N": len(Y),
    "n_groups": 2,
}
try_render_model(model_latent_variable_models, render_name = "潜在変数モデル", **model_args)

### 5.4.4 サンプリングと結果分析

In [None]:
model_args = {
    "Y": Y,
    "N": len(Y),
    "n_groups": 2,
}
idata = run_mcmc(model_latent_variable_models, num_chains = 1, num_warmup = 2000, num_samples = 1000, thinning = 1, seed = 42, target_accept_prob = 0.99, log_likelihood = False, **model_args)

In [None]:
az.plot_trace(idata, compact = False, var_names = ["p", "μ_s", "σ_s"])
plt.tight_layout()

In [None]:
plt.rcParams['figure.figsize']=(6,6)
az.plot_posterior(idata, var_names = ["p", "μ_s", "σ_s"])
plt.tight_layout();

In [None]:
summary = az.summary(idata, var_names = ["p", "μ_s", "σ_s"])
display(summary)

### 5.4.5 ヒストグラムと正規分布関数の重ね描き

In [None]:
# 正規分布関数の定義
def norm(x, mu, sigma):
    return np.exp(-((x - mu)/sigma)**2/2) / (np.sqrt(2 * np.pi) * sigma)

# 推論結果から各パラメータの平均値を取得
mean = summary['mean']

# muの平均値取得
mean_mu0 = mean['μ_s[0]']
mean_mu1 = mean['μ_s[1]']

# sigmaの平均値取得
mean_sigma0 = mean['σ_s[0]']
mean_sigma1 = mean['σ_s[1]']

# 正規分布関数値の計算
x = np.arange(0.8, 3.0, 0.05)
delta = 0.1
y0 = norm(x, mean_mu0, mean_sigma0) * delta / 2
y1 = norm(x, mean_mu1, mean_sigma1) * delta / 2

# グラフ描画
bins = np.arange(0.8, 3.0, delta)
plt.rcParams['figure.figsize']=(6,6)
fig, ax = plt.subplots()
sns.histplot(data=df_exclude_setosa, bins=bins, x='petal_width',
    hue='species', kde=True, ax=ax,  stat='probability')
ax.get_lines()[1].set_label('KDE versicolor')
ax.get_lines()[0].set_label('KDE virginica')
ax.plot(x, y0, c='b', lw=3, label='Bayse versicolor')
ax.plot(x, y1, c='y', lw=3, label='Bayse virginica')
ax.set_xticks(bins);
ax.xaxis.set_tick_params(rotation=90)
ax.set_title('ヒストグラムと正規分布関数の重ね描き')
plt.legend();

### 5.4.6 潜在変数の確率分布
省略