# Chapter 3: ギブスサンプリング

## 学習目標
- ギブスサンプリングの基本原理を理解する
- 条件付き分布の導出方法を学ぶ
- 多変量正規分布での実装を習得する
- 混合モデルや階層モデルへの応用を理解する
- ブロックギブスサンプリングの概念を学ぶ

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.special import logsumexp
import warnings
warnings.filterwarnings('ignore')

plt.rcParams['font.family'] = 'DejaVu Sans'
sns.set_style("whitegrid")
np.random.seed(42)

## 3.1 ギブスサンプリング：「棄却のないMCMC」の威力

ギブスサンプリングは、多変量分布 $p(x_1, x_2, ..., x_k)$ からサンプリングを行う、極めてエレガントなMCMC手法です。その最大の特徴は「**受理率100%**」という驚異的な効率性にあります。

### 基本アイデア：複雑な問題の分解

高次元の複雑な同時確率分布からのサンプリングを、一連のより単純な**1次元サンプリング**に分解するのが核心的アイデアです。

### アルゴリズム（k変数の場合）
1. **初期値設定**: $(x_1^{(0)}, x_2^{(0)}, ..., x_k^{(0)})$ を適当に設定
2. **各イテレーション** $t$ で以下を順次実行：
   - $x_1^{(t+1)} \sim p(x_1 | x_2^{(t)}, x_3^{(t)}, ..., x_k^{(t)})$
   - $x_2^{(t+1)} \sim p(x_2 | x_1^{(t+1)}, x_3^{(t)}, ..., x_k^{(t)})$
   - $\vdots$
   - $x_k^{(t+1)} \sim p(x_k | x_1^{(t+1)}, x_2^{(t+1)}, ..., x_{k-1}^{(t+1)})$

このジグザグとしたサンプリングを繰り返すことで、サンプル列は目標とする同時分布に収束します。

### MH法との根本的な関係

ギブスサンプリングは、実は**メトロポリス・ヘイスティングス法の特殊で効率的なケース**です：

- **提案分布**: 完全条件付き分布 $p(x_i'|x_{-i}^{(t)})$ そのものを使用
- **採択確率**: $\alpha = \min(1, \frac{p(x_i'|x_{-i}^{(t)}) \cdot p(x_i'|x_{-i}^{(t)})}{p(x_i^{(t)}|x_{-i}^{(t)}) \cdot p(x_i^{(t)}|x_{-i}^{(t)})}) = \min(1, 1) = 1$

つまり、**すべての提案が必ず採択される「棄却のないMH法」**なのです。

### 長所と制約

**長所:**
- ✅ **受理率100%**: 提案分布のチューニング不要
- ✅ **計算効率**: 複雑な受理確率計算が不要
- ✅ **自動的な詳細釣り合い**: 条件付き分布の性質により自然に満たされる

**制約:**
- ❌ **適用範囲の限定**: すべての完全条件付き分布が「既知の」確率分布である必要
- ❌ **数学的配慮**: 共役事前分布などの慎重な設計が必要

ギブスサンプリングは「適用できる場合には非常に効率的」な、条件付きの強力な手法です。

## 3.2 例1：2変量正規分布からのサンプリング

まず、解析的に条件付き分布を導出できる2変量正規分布でギブスサンプリングを実装してみましょう。

In [None]:
def gibbs_sampling_bivariate_normal(mu, cov, n_samples, initial_value=None):
    """
    2変量正規分布からのギブスサンプリング
    
    Parameters:
    - mu: 平均ベクトル [mu_x, mu_y]
    - cov: 共分散行列 [[var_x, cov_xy], [cov_xy, var_y]]
    - n_samples: サンプル数
    - initial_value: 初期値 [x0, y0]
    
    Returns:
    - samples: shape (n_samples, 2) のサンプル配列
    """
    samples = np.zeros((n_samples, 2))
    
    # 条件付き分布のパラメータを事前計算
    mu_x, mu_y = mu[0], mu[1]
    var_x, var_y = cov[0, 0], cov[1, 1]
    cov_xy = cov[0, 1]
    
    # 相関係数
    rho = cov_xy / np.sqrt(var_x * var_y)
    
    # 条件付き分布の標準偏差
    sigma_x_given_y = np.sqrt(var_x * (1 - rho**2))
    sigma_y_given_x = np.sqrt(var_y * (1 - rho**2))
    
    # 初期値の設定
    if initial_value is None:
        x, y = mu_x, mu_y
    else:
        x, y = initial_value[0], initial_value[1]
    
    for i in range(n_samples):
        # x | y からサンプリング
        # p(x|y) ~ N(mu_x + rho*(sigma_x/sigma_y)*(y - mu_y), sigma_x^2*(1-rho^2))
        mu_x_given_y = mu_x + rho * np.sqrt(var_x / var_y) * (y - mu_y)
        x = np.random.normal(mu_x_given_y, sigma_x_given_y)
        
        # y | x からサンプリング
        # p(y|x) ~ N(mu_y + rho*(sigma_y/sigma_x)*(x - mu_x), sigma_y^2*(1-rho^2))
        mu_y_given_x = mu_y + rho * np.sqrt(var_y / var_x) * (x - mu_x)
        y = np.random.normal(mu_y_given_x, sigma_y_given_x)
        
        samples[i] = [x, y]
    
    return samples

# パラメータ設定
mu = np.array([1.0, 2.0])
cov = np.array([[2.0, 1.5], [1.5, 3.0]])

print(f"目標分布の平均: {mu}")
print(f"目標分布の共分散:\n{cov}")
print(f"相関係数: {cov[0,1]/np.sqrt(cov[0,0]*cov[1,1]):.3f}")

# ギブスサンプリング実行
samples_gibbs = gibbs_sampling_bivariate_normal(mu, cov, 10000)

# 結果の統計
burnin = 1000
sample_mean = np.mean(samples_gibbs[burnin:], axis=0)
sample_cov = np.cov(samples_gibbs[burnin:].T)

print(f"\nサンプル平均: {sample_mean}")
print(f"サンプル共分散:\n{sample_cov}")
print(f"サンプル相関係数: {sample_cov[0,1]/np.sqrt(sample_cov[0,0]*sample_cov[1,1]):.3f}")

In [None]:
# ギブスサンプリング結果の可視化
def plot_gibbs_results(samples, mu, cov, title="Gibbs Sampling Results"):
    fig, axes = plt.subplots(2, 3, figsize=(15, 10))
    
    burnin = len(samples) // 10
    samples_clean = samples[burnin:]
    
    # サンプルの軌跡（最初の500サンプル）
    trajectory = samples[:500]
    axes[0, 0].plot(trajectory[:, 0], trajectory[:, 1], 'b-', alpha=0.7, linewidth=0.8)
    axes[0, 0].plot(trajectory[:, 0], trajectory[:, 1], 'b.', markersize=2, alpha=0.8)
    axes[0, 0].plot(trajectory[0, 0], trajectory[0, 1], 'go', markersize=8, label='Start')
    axes[0, 0].plot(trajectory[-1, 0], trajectory[-1, 1], 'ro', markersize=8, label='End')
    axes[0, 0].set_title('Gibbs Sampling Trajectory (first 500)')
    axes[0, 0].set_xlabel('X1')
    axes[0, 0].set_ylabel('X2')
    axes[0, 0].legend()
    axes[0, 0].grid(True, alpha=0.3)
    
    # 散布図と真の分布の等高線
    axes[0, 1].scatter(samples_clean[::5, 0], samples_clean[::5, 1], alpha=0.6, s=1)
    
    # 真の分布の等高線
    x1_range = np.linspace(samples_clean[:, 0].min(), samples_clean[:, 0].max(), 50)
    x2_range = np.linspace(samples_clean[:, 1].min(), samples_clean[:, 1].max(), 50)
    X1, X2 = np.meshgrid(x1_range, x2_range)
    pos = np.dstack((X1, X2))
    rv = stats.multivariate_normal(mu, cov)
    axes[0, 1].contour(X1, X2, rv.pdf(pos), colors='red', alpha=0.8, linewidths=2)
    axes[0, 1].set_title('Samples with True Distribution')
    axes[0, 1].set_xlabel('X1')
    axes[0, 1].set_ylabel('X2')
    axes[0, 1].set_aspect('equal')
    
    # トレースプロット
    axes[0, 2].plot(samples[:2000, 0], alpha=0.7, label='X1', linewidth=0.8)
    axes[0, 2].plot(samples[:2000, 1], alpha=0.7, label='X2', linewidth=0.8)
    axes[0, 2].axvline(burnin, color='red', linestyle='--', alpha=0.7, label='Burn-in')
    axes[0, 2].set_title('Trace Plot')
    axes[0, 2].set_xlabel('Iteration')
    axes[0, 2].set_ylabel('Value')
    axes[0, 2].legend()
    
    # X1のマージナル分布
    axes[1, 0].hist(samples_clean[:, 0], bins=50, density=True, alpha=0.7, 
                    color='lightblue', label='X1 samples')
    x1_theory = np.linspace(samples_clean[:, 0].min(), samples_clean[:, 0].max(), 100)
    axes[1, 0].plot(x1_theory, stats.norm.pdf(x1_theory, mu[0], np.sqrt(cov[0, 0])), 
                    'r-', linewidth=2, label='X1 true')
    axes[1, 0].set_title('Marginal Distribution X1')
    axes[1, 0].set_xlabel('X1')
    axes[1, 0].set_ylabel('Density')
    axes[1, 0].legend()
    
    # X2のマージナル分布
    axes[1, 1].hist(samples_clean[:, 1], bins=50, density=True, alpha=0.7, 
                    color='lightgreen', label='X2 samples')
    x2_theory = np.linspace(samples_clean[:, 1].min(), samples_clean[:, 1].max(), 100)
    axes[1, 1].plot(x2_theory, stats.norm.pdf(x2_theory, mu[1], np.sqrt(cov[1, 1])), 
                    'r-', linewidth=2, label='X2 true')
    axes[1, 1].set_title('Marginal Distribution X2')
    axes[1, 1].set_xlabel('X2')
    axes[1, 1].set_ylabel('Density')
    axes[1, 1].legend()
    
    # 自己相関（X1について）
    from statsmodels.tsa.stattools import acf
    lags = min(100, len(samples_clean) // 10)
    autocorr_x1 = acf(samples_clean[:, 0], nlags=lags, fft=True)
    autocorr_x2 = acf(samples_clean[:, 1], nlags=lags, fft=True)
    
    axes[1, 2].plot(autocorr_x1, label='X1', alpha=0.8)
    axes[1, 2].plot(autocorr_x2, label='X2', alpha=0.8)
    axes[1, 2].axhline(0, color='k', linestyle='--', alpha=0.5)
    axes[1, 2].axhline(0.05, color='r', linestyle='--', alpha=0.5)
    axes[1, 2].axhline(-0.05, color='r', linestyle='--', alpha=0.5)
    axes[1, 2].set_title('Autocorrelation Functions')
    axes[1, 2].set_xlabel('Lag')
    axes[1, 2].set_ylabel('ACF')
    axes[1, 2].legend()
    
    plt.suptitle(title, fontsize=16)
    plt.tight_layout()
    plt.show()

plot_gibbs_results(samples_gibbs, mu, cov)

## 3.3 メトロポリス・ヘイスティングス法との比較

同じ分布に対してメトロポリス・ヘイスティングス法も適用し、性能を比較してみましょう。

In [None]:
# メトロポリス・ヘイスティングス法の実装（前章から）
def multivariate_normal_log_pdf(x, mu, cov):
    """多変量正規分布の対数確率密度"""
    k = len(mu)
    diff = x - mu
    
    try:
        chol = np.linalg.cholesky(cov)
        log_det = 2 * np.sum(np.log(np.diag(chol)))
        solve = np.linalg.solve(chol, diff)
        mahalanobis_sq = np.sum(solve**2)
    except np.linalg.LinAlgError:
        return -np.inf
    
    return -0.5 * (k * np.log(2 * np.pi) + log_det + mahalanobis_sq)

def mh_multivariate_normal(mu, cov, n_samples, step_size=0.5):
    """多変量正規分布からのMHサンプリング"""
    samples = np.zeros((n_samples, len(mu)))
    current = np.copy(mu)  # 平均から開始
    current_log_prob = multivariate_normal_log_pdf(current, mu, cov)
    n_accepted = 0
    
    cov_proposal = step_size * np.eye(len(mu))
    
    for i in range(n_samples):
        # 提案
        proposed = np.random.multivariate_normal(current, cov_proposal)
        proposed_log_prob = multivariate_normal_log_pdf(proposed, mu, cov)
        
        # 受理確率（対称提案なので簡単）
        log_alpha = proposed_log_prob - current_log_prob
        alpha = min(1.0, np.exp(log_alpha))
        
        # 受理/棄却
        if np.random.rand() < alpha:
            current = proposed
            current_log_prob = proposed_log_prob
            n_accepted += 1
        
        samples[i] = current
    
    return samples, n_accepted / n_samples

# MHサンプリング実行
print("メトロポリス・ヘイスティングス法でサンプリング中...")
samples_mh, acceptance_rate = mh_multivariate_normal(mu, cov, 10000, step_size=0.8)

print(f"MH法受理率: {acceptance_rate:.3f}")

# 統計の比較
burnin = 1000

# ギブス統計
gibbs_mean = np.mean(samples_gibbs[burnin:], axis=0)
gibbs_cov = np.cov(samples_gibbs[burnin:].T)

# MH統計
mh_mean = np.mean(samples_mh[burnin:], axis=0)
mh_cov = np.cov(samples_mh[burnin:].T)

print(f"\n=== 統計比較 ===")
print(f"真の平均:     {mu}")
print(f"ギブス平均:   {gibbs_mean}")
print(f"MH平均:       {mh_mean}")
print(f"\n真の共分散:")
print(cov)
print(f"ギブス共分散:")
print(gibbs_cov)
print(f"MH共分散:")
print(mh_cov)


In [None]:
# 効率の比較
from statsmodels.tsa.stattools import acf

def compute_efficiency_metrics(samples, burnin_frac=0.1):
    """効率指標の計算"""
    burnin = int(len(samples) * burnin_frac)
    clean_samples = samples[burnin:]
    
    # 各次元の自己相関時間を計算
    autocorr_times = []
    eff_sample_sizes = []
    
    for dim in range(clean_samples.shape[1]):
        data = clean_samples[:, dim]
        lags = min(200, len(data) // 4)
        autocorr = acf(data, nlags=lags, fft=True)
        
        # 最初に閾値を下回るラグを見つける
        tau_int = 1
        for lag in range(1, len(autocorr)):
            if autocorr[lag] < 0.05:
                tau_int = lag
                break
        
        autocorr_times.append(tau_int)
        eff_sample_sizes.append(len(data) / (2 * tau_int + 1))
    
    return autocorr_times, eff_sample_sizes

# 効率比較
gibbs_autocorr, gibbs_eff = compute_efficiency_metrics(samples_gibbs)
mh_autocorr, mh_eff = compute_efficiency_metrics(samples_mh)

print("=== 効率比較 ===")
print(f"{'Method':<10} {'Dim':<5} {'Autocorr Time':<15} {'Eff Sample Size':<18}")
print("-" * 50)
for dim in range(2):
    print(f"{'Gibbs':<10} {'X'+str(dim+1):<5} {gibbs_autocorr[dim]:<15d} {gibbs_eff[dim]:<18.1f}")
    print(f"{'MH':<10} {'X'+str(dim+1):<5} {mh_autocorr[dim]:<15d} {mh_eff[dim]:<18.1f}")
    print()

print(f"平均効率サンプルサイズ:")
print(f"  ギブス: {np.mean(gibbs_eff):.1f}")
print(f"  MH:     {np.mean(mh_eff):.1f}")

## 3.4 例2：混合正規分布の推定

より実践的な例として、潜在変数を持つ混合正規分布のパラメータ推定をギブスサンプリングで行ってみましょう。

In [None]:
# データ生成
def generate_mixture_data(n_samples, weights, means, variances):
    """
    混合正規分布からデータを生成
    
    Parameters:
    - n_samples: サンプル数
    - weights: 混合重み
    - means: 各成分の平均
    - variances: 各成分の分散
    """
    n_components = len(weights)
    
    # 成分の割り当て
    components = np.random.choice(n_components, size=n_samples, p=weights)
    
    # データ生成
    data = np.zeros(n_samples)
    for i in range(n_samples):
        comp = components[i]
        data[i] = np.random.normal(means[comp], np.sqrt(variances[comp]))
    
    return data, components

# 真のパラメータ
true_weights = np.array([0.3, 0.7])
true_means = np.array([-2.0, 2.0])
true_variances = np.array([0.5, 1.0])

# データ生成
n_obs = 200
data, true_components = generate_mixture_data(n_obs, true_weights, true_means, true_variances)

print(f"真のパラメータ:")
print(f"  重み: {true_weights}")
print(f"  平均: {true_means}")
print(f"  分散: {true_variances}")

# データの可視化
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.hist(data, bins=30, density=True, alpha=0.7, color='lightblue')
x_range = np.linspace(data.min(), data.max(), 1000)
true_density = (true_weights[0] * stats.norm.pdf(x_range, true_means[0], np.sqrt(true_variances[0])) +
                true_weights[1] * stats.norm.pdf(x_range, true_means[1], np.sqrt(true_variances[1])))
plt.plot(x_range, true_density, 'r-', linewidth=2, label='True distribution')
plt.title('Generated Data')
plt.xlabel('Value')
plt.ylabel('Density')
plt.legend()

plt.subplot(1, 2, 2)
colors = ['red', 'blue']
for k in range(2):
    mask = true_components == k
    plt.hist(data[mask], bins=15, alpha=0.7, color=colors[k], 
             label=f'Component {k+1}', density=True)
plt.title('Data by True Components')
plt.xlabel('Value')
plt.ylabel('Density')
plt.legend()

plt.tight_layout()
plt.show()

In [None]:
def gibbs_mixture_gaussian(data, n_components, n_iterations, 
                          prior_alpha=1.0, prior_mu_var=10.0, 
                          prior_sigma_shape=1.0, prior_sigma_scale=1.0):
    """
    混合正規分布のギブスサンプリング
    
    Parameters:
    - data: 観測データ
    - n_components: 混合成分数
    - n_iterations: イテレーション数
    - prior_*: 事前分布のパラメータ
    """
    n_obs = len(data)
    
    # パラメータ保存用配列
    weights_samples = np.zeros((n_iterations, n_components))
    means_samples = np.zeros((n_iterations, n_components))
    variances_samples = np.zeros((n_iterations, n_components))
    components_samples = np.zeros((n_iterations, n_obs), dtype=int)
    
    # 初期値
    weights = np.ones(n_components) / n_components
    means = np.random.normal(0, 2, n_components)
    variances = np.ones(n_components)
    components = np.random.choice(n_components, n_obs)
    
    for iteration in range(n_iterations):
        # 1. 潜在変数（成分割り当て）の更新
        for i in range(n_obs):
            # 各成分への所属確率を計算
            log_probs = np.zeros(n_components)
            for k in range(n_components):
                log_probs[k] = (np.log(weights[k]) + 
                               stats.norm.logpdf(data[i], means[k], np.sqrt(variances[k])))
            
            # 安定な確率計算
            log_probs -= logsumexp(log_probs)
            probs = np.exp(log_probs)
            
            # サンプリング
            components[i] = np.random.choice(n_components, p=probs)
        
        # 2. 混合重みの更新（ディリクレ分布から）
        counts = np.bincount(components, minlength=n_components)
        weights = np.random.dirichlet(prior_alpha + counts)
        
        # 3. 平均の更新（正規分布から）
        for k in range(n_components):
            mask = components == k
            n_k = np.sum(mask)
            
            if n_k > 0:
                data_k = data[mask]
                sample_mean = np.mean(data_k)
                
                # 事後分布のパラメータ
                posterior_var = 1 / (1/prior_mu_var + n_k/variances[k])
                posterior_mean = posterior_var * (n_k * sample_mean / variances[k])
                
                means[k] = np.random.normal(posterior_mean, np.sqrt(posterior_var))
            else:
                # データが割り当てられていない場合は事前分布から
                means[k] = np.random.normal(0, np.sqrt(prior_mu_var))
        
        # 4. 分散の更新（逆ガンマ分布から）
        for k in range(n_components):
            mask = components == k
            n_k = np.sum(mask)
            
            if n_k > 0:
                data_k = data[mask]
                ss = np.sum((data_k - means[k])**2)
                
                # 事後分布のパラメータ
                posterior_shape = prior_sigma_shape + n_k / 2
                posterior_scale = prior_sigma_scale + ss / 2
                
                # 逆ガンマからサンプリング（ガンマの逆数）
                variances[k] = 1 / np.random.gamma(posterior_shape, 1/posterior_scale)
            else:
                # データが割り当てられていない場合は事前分布から
                variances[k] = 1 / np.random.gamma(prior_sigma_shape, 1/prior_sigma_scale)
        
        # サンプル保存
        weights_samples[iteration] = weights
        means_samples[iteration] = means
        variances_samples[iteration] = variances
        components_samples[iteration] = components
        
        if iteration % 200 == 0:
            print(f"Iteration {iteration}: weights={weights:.3f}, "
                  f"means=[{means[0]:.2f}, {means[1]:.2f}], "
                  f"vars=[{variances[0]:.2f}, {variances[1]:.2f}]")
    
    return {
        'weights': weights_samples,
        'means': means_samples,
        'variances': variances_samples,
        'components': components_samples
    }

# ギブスサンプリング実行
print("混合正規分布のパラメータ推定中...")
results = gibbs_mixture_gaussian(data, n_components=2, n_iterations=2000)

# 結果の統計
burnin = 500
weights_post = results['weights'][burnin:]
means_post = results['means'][burnin:]
variances_post = results['variances'][burnin:]

print(f"\n=== 推定結果 ===")
print(f"重み:")
print(f"  真値:   {true_weights}")
print(f"  推定値: {np.mean(weights_post, axis=0)}")
print(f"平均:")
print(f"  真値:   {true_means}")
print(f"  推定値: {np.mean(means_post, axis=0)}")
print(f"分散:")
print(f"  真値:   {true_variances}")
print(f"  推定値: {np.mean(variances_post, axis=0)}")

In [None]:
# 混合モデル結果の可視化
fig, axes = plt.subplots(2, 3, figsize=(15, 10))

# パラメータのトレースプロット
iterations = np.arange(len(results['weights']))

# 重み
axes[0, 0].plot(iterations, results['weights'][:, 0], alpha=0.8, label='Component 1')
axes[0, 0].plot(iterations, results['weights'][:, 1], alpha=0.8, label='Component 2')
axes[0, 0].axhline(true_weights[0], color='red', linestyle='--', alpha=0.7)
axes[0, 0].axhline(true_weights[1], color='blue', linestyle='--', alpha=0.7)
axes[0, 0].axvline(burnin, color='gray', linestyle=':', alpha=0.7)
axes[0, 0].set_title('Mixture Weights')
axes[0, 0].set_xlabel('Iteration')
axes[0, 0].set_ylabel('Weight')
axes[0, 0].legend()

# 平均
axes[0, 1].plot(iterations, results['means'][:, 0], alpha=0.8, label='Component 1')
axes[0, 1].plot(iterations, results['means'][:, 1], alpha=0.8, label='Component 2')
axes[0, 1].axhline(true_means[0], color='red', linestyle='--', alpha=0.7)
axes[0, 1].axhline(true_means[1], color='blue', linestyle='--', alpha=0.7)
axes[0, 1].axvline(burnin, color='gray', linestyle=':', alpha=0.7)
axes[0, 1].set_title('Component Means')
axes[0, 1].set_xlabel('Iteration')
axes[0, 1].set_ylabel('Mean')
axes[0, 1].legend()

# 分散
axes[0, 2].plot(iterations, results['variances'][:, 0], alpha=0.8, label='Component 1')
axes[0, 2].plot(iterations, results['variances'][:, 1], alpha=0.8, label='Component 2')
axes[0, 2].axhline(true_variances[0], color='red', linestyle='--', alpha=0.7)
axes[0, 2].axhline(true_variances[1], color='blue', linestyle='--', alpha=0.7)
axes[0, 2].axvline(burnin, color='gray', linestyle=':', alpha=0.7)
axes[0, 2].set_title('Component Variances')
axes[0, 2].set_xlabel('Iteration')
axes[0, 2].set_ylabel('Variance')
axes[0, 2].legend()

# 事後分布のヒストグラム
axes[1, 0].hist(weights_post[:, 0], bins=30, alpha=0.7, density=True, label='Component 1')
axes[1, 0].hist(weights_post[:, 1], bins=30, alpha=0.7, density=True, label='Component 2')
axes[1, 0].axvline(true_weights[0], color='red', linestyle='--', label='True values')
axes[1, 0].axvline(true_weights[1], color='blue', linestyle='--')
axes[1, 0].set_title('Posterior Distribution of Weights')
axes[1, 0].set_xlabel('Weight')
axes[1, 0].set_ylabel('Density')
axes[1, 0].legend()

axes[1, 1].hist(means_post[:, 0], bins=30, alpha=0.7, density=True, label='Component 1')
axes[1, 1].hist(means_post[:, 1], bins=30, alpha=0.7, density=True, label='Component 2')
axes[1, 1].axvline(true_means[0], color='red', linestyle='--', label='True values')
axes[1, 1].axvline(true_means[1], color='blue', linestyle='--')
axes[1, 1].set_title('Posterior Distribution of Means')
axes[1, 1].set_xlabel('Mean')
axes[1, 1].set_ylabel('Density')
axes[1, 1].legend()

# 推定分布 vs 真の分布
x_range = np.linspace(data.min(), data.max(), 1000)

# 事後平均を使った推定分布
est_weights = np.mean(weights_post, axis=0)
est_means = np.mean(means_post, axis=0)
est_variances = np.mean(variances_post, axis=0)

est_density = (est_weights[0] * stats.norm.pdf(x_range, est_means[0], np.sqrt(est_variances[0])) +
               est_weights[1] * stats.norm.pdf(x_range, est_means[1], np.sqrt(est_variances[1])))

true_density = (true_weights[0] * stats.norm.pdf(x_range, true_means[0], np.sqrt(true_variances[0])) +
                true_weights[1] * stats.norm.pdf(x_range, true_means[1], np.sqrt(true_variances[1])))

axes[1, 2].hist(data, bins=30, density=True, alpha=0.7, color='lightgray', label='Data')
axes[1, 2].plot(x_range, true_density, 'r-', linewidth=2, label='True distribution')
axes[1, 2].plot(x_range, est_density, 'b--', linewidth=2, label='Estimated distribution')
axes[1, 2].set_title('Distribution Comparison')
axes[1, 2].set_xlabel('Value')
axes[1, 2].set_ylabel('Density')
axes[1, 2].legend()

plt.tight_layout()
plt.show()

## 3.5 ブロックギブスサンプリング

変数を個別に更新する代わりに、変数のブロック（グループ）を同時に更新する手法です。

In [None]:
def block_gibbs_bivariate_normal(mu, cov, n_samples, block_prob=0.5):
    """
    ブロックギブスサンプリング（2変量正規分布）
    
    Parameters:
    - mu, cov: 分布パラメータ
    - n_samples: サンプル数
    - block_prob: ブロック更新を行う確率
    """
    samples = np.zeros((n_samples, 2))
    
    # 条件付き分布のパラメータ（通常のギブスサンプリング用）
    mu_x, mu_y = mu[0], mu[1]
    var_x, var_y = cov[0, 0], cov[1, 1]
    cov_xy = cov[0, 1]
    rho = cov_xy / np.sqrt(var_x * var_y)
    sigma_x_given_y = np.sqrt(var_x * (1 - rho**2))
    sigma_y_given_x = np.sqrt(var_y * (1 - rho**2))
    
    # 初期値
    x, y = mu_x, mu_y
    
    block_updates = 0
    
    for i in range(n_samples):
        if np.random.rand() < block_prob:
            # ブロック更新：両変数を同時に更新
            new_sample = np.random.multivariate_normal(mu, cov)
            x, y = new_sample[0], new_sample[1]
            block_updates += 1
        else:
            # 通常のギブス更新
            # x | y
            mu_x_given_y = mu_x + rho * np.sqrt(var_x / var_y) * (y - mu_y)
            x = np.random.normal(mu_x_given_y, sigma_x_given_y)
            
            # y | x
            mu_y_given_x = mu_y + rho * np.sqrt(var_y / var_x) * (x - mu_x)
            y = np.random.normal(mu_y_given_x, sigma_y_given_x)
        
        samples[i] = [x, y]
    
    print(f"ブロック更新の割合: {block_updates / n_samples:.2%}")
    
    return samples

# 高い相関を持つ分布でテスト
high_corr_cov = np.array([[1.0, 0.95], [0.95, 1.0]])

print("高相関分布での比較...")
print(f"相関係数: {high_corr_cov[0,1]/np.sqrt(high_corr_cov[0,0]*high_corr_cov[1,1]):.3f}")

# 通常のギブス
samples_gibbs_high = gibbs_sampling_bivariate_normal(mu, high_corr_cov, 5000)

# ブロックギブス（50%の確率でブロック更新）
samples_block_gibbs = block_gibbs_bivariate_normal(mu, high_corr_cov, 5000, block_prob=0.5)

# 効率比較
gibbs_high_autocorr, gibbs_high_eff = compute_efficiency_metrics(samples_gibbs_high)
block_autocorr, block_eff = compute_efficiency_metrics(samples_block_gibbs)

print(f"\n=== 高相関での効率比較 ===")
print(f"{'Method':<15} {'Dim':<5} {'Autocorr Time':<15} {'Eff Sample Size':<18}")
print("-" * 55)
for dim in range(2):
    print(f"{'Regular Gibbs':<15} {'X'+str(dim+1):<5} {gibbs_high_autocorr[dim]:<15d} {gibbs_high_eff[dim]:<18.1f}")
    print(f"{'Block Gibbs':<15} {'X'+str(dim+1):<5} {block_autocorr[dim]:<15d} {block_eff[dim]:<18.1f}")
    print()

print(f"平均効率サンプルサイズ:")
print(f"  通常ギブス:   {np.mean(gibbs_high_eff):.1f}")
print(f"  ブロックギブス: {np.mean(block_eff):.1f}")

## 3.6 演習問題

### 問題1：3変量正規分布のギブスサンプリング
3変量正規分布に対してギブスサンプリングを実装しなさい。

In [None]:
# 問題1の解答欄
def gibbs_sampling_trivariate_normal(mu, cov, n_samples):
    """
    3変量正規分布からのギブスサンプリング
    
    ヒント：
    3変量正規分布 N(μ, Σ) において、
    X1 | X2, X3 ~ N(μ1 + Σ12 Σ22^-1 (X23 - μ23), Σ11 - Σ12 Σ22^-1 Σ21)
    ここで X23 = [X2, X3]^T, μ23 = [μ2, μ3]^T
    """
    # ここに実装してください
    pass  # 学習者が実装

# テスト用パラメータ
mu_3d = np.array([1.0, 2.0, 3.0])
cov_3d = np.array([
    [2.0, 0.8, 0.3],
    [0.8, 1.5, 0.6],
    [0.3, 0.6, 1.0]
])

# samples_3d = gibbs_sampling_trivariate_normal(mu_3d, cov_3d, 5000)

### 問題2：ベイズ線形回帰の完全実装

新しいドキュメントで詳しく解説されていたベイズ線形回帰を完全実装してみましょう。

#### モデル設定
- **尤度**: $y = X\beta + \epsilon$, $\epsilon \sim N(0, \sigma^2 I)$
- **回帰係数の事前分布**: $\beta \sim N(0, \tau_0^{-1} I)$  
- **精度の事前分布**: $\tau = 1/\sigma^2 \sim \text{Gamma}(\alpha, \beta)$

#### 完全条件付き分布
ギブスサンプリングの核心は、各パラメータの完全条件付き事後分布を導出することです：

1. **$p(\beta|\tau, y, X)$**: 多変量正規分布
2. **$p(\tau|\beta, y, X)$**: ガンマ分布

これらの分布のパラメータは、データと他のパラメータの現在値から計算できます。

In [None]:
def gibbs_bayesian_regression(X, y, n_iterations, 
                             prior_beta_precision=0.0001, 
                             prior_tau_shape=2.0, prior_tau_rate=1.0):
    """
    線形回帰のベイズ推定（ギブスサンプリング）
    
    モデル: y = X β + ε, ε ~ N(0, τ^{-1})
    事前分布: 
    - β ~ N(0, prior_beta_precision^{-1} * I)
    - τ ~ Gamma(prior_tau_shape, prior_tau_rate)
    
    Parameters:
    - X: 計画行列 (n × p)
    - y: 観測値 (n × 1)
    - n_iterations: 反復回数
    - prior_*: 事前分布のパラメータ
    
    Returns:
    - samples: {'beta': beta_samples, 'tau': tau_samples, 'sigma': sigma_samples}
    """
    n, p = X.shape
    
    # サンプル保存用
    beta_samples = np.zeros((n_iterations, p))
    tau_samples = np.zeros(n_iterations)
    sigma_samples = np.zeros(n_iterations)
    
    # 初期値
    beta_current = np.zeros(p)
    tau_current = 1.0
    
    # 事前計算（計算効率のため）
    XtX = X.T @ X
    Xty = X.T @ y
    
    for i in range(n_iterations):
        # 1. β | τ, y の更新（多変量正規分布から）
        # 事後精度行列と平均
        posterior_precision = prior_beta_precision * np.eye(p) + tau_current * XtX
        try:
            posterior_cov = np.linalg.inv(posterior_precision)
            posterior_mean = posterior_cov @ (tau_current * Xty)
            
            # サンプリング
            beta_current = np.random.multivariate_normal(posterior_mean, posterior_cov)
        except np.linalg.LinAlgError:
            # 数値的に不安定な場合はCholeskyを使用
            try:
                L = np.linalg.cholesky(posterior_precision)
                z = np.random.randn(p)
                v = np.linalg.solve(L, tau_current * Xty)
                w = np.linalg.solve(L, z)
                beta_current = np.linalg.solve(L.T, v) + np.linalg.solve(L.T, w)
            except:
                # それでも失敗した場合は前の値を保持
                pass
        
        # 2. τ | β, y の更新（ガンマ分布から）
        # 残差の計算
        residuals = y - X @ beta_current
        sum_squared_residuals = np.sum(residuals**2)
        
        # 事後パラメータ
        posterior_shape = prior_tau_shape + n / 2.0
        posterior_rate = prior_tau_rate + sum_squared_residuals / 2.0
        
        # サンプリング
        tau_current = np.random.gamma(posterior_shape, 1.0 / posterior_rate)
        
        # 結果の保存
        beta_samples[i] = beta_current
        tau_samples[i] = tau_current
        sigma_samples[i] = 1.0 / np.sqrt(tau_current)
        
        if i > 0 and i % 500 == 0:
            print(f"Iteration {i}: β̂ = {beta_current[:3]}, σ̂ = {1/np.sqrt(tau_current):.3f}")
    
    return {
        'beta': beta_samples,
        'tau': tau_samples,
        'sigma': sigma_samples
    }

# 合成データの生成
np.random.seed(42)
n_obs = 100
n_predictors = 3

# 設計行列（切片項を含む）
X_reg = np.column_stack([
    np.ones(n_obs),  # 切片
    np.random.randn(n_obs),  # 予測子1
    np.random.randn(n_obs)   # 予測子2
])

# 真のパラメータ
true_beta = np.array([2.5, 1.8, -1.2])  # [切片, 傾き1, 傾き2]
true_sigma = 1.5

# 観測値の生成
y_reg = X_reg @ true_beta + np.random.normal(0, true_sigma, n_obs)

print(f"=== データ生成 ===")
print(f"サンプル数: {n_obs}")
print(f"真の回帰係数: {true_beta}")
print(f"真の誤差標準偏差: {true_sigma}")

# ギブスサンプリング実行
print(f"\n=== ギブスサンプリング実行 ===")
results_reg = gibbs_bayesian_regression(X_reg, y_reg, 5000)

# 結果の分析
burnin = 1000
beta_post = results_reg['beta'][burnin:]
sigma_post = results_reg['sigma'][burnin:]

print(f"\n=== 推定結果 ===")
print(f"事後平均（回帰係数）:")
for i, (true_val, est_val) in enumerate(zip(true_beta, np.mean(beta_post, axis=0))):
    param_name = "切片" if i == 0 else f"傾き{i}"
    print(f"  {param_name:>4}: 真値={true_val:6.2f}, 推定値={est_val:6.2f}")

print(f"\n誤差標準偏差:")
print(f"  真値={true_sigma:6.2f}, 推定値={np.mean(sigma_post):6.2f}")

# 信頼区間
print(f"\n=== 95%信頼区間 ===")
for i, true_val in enumerate(true_beta):
    param_name = "切片" if i == 0 else f"傾き{i}"
    ci_lower = np.percentile(beta_post[:, i], 2.5)
    ci_upper = np.percentile(beta_post[:, i], 97.5)
    in_ci = ci_lower <= true_val <= ci_upper
    print(f"  {param_name:>4}: [{ci_lower:6.2f}, {ci_upper:6.2f}] {'✓' if in_ci else '✗'}")

sigma_ci_lower = np.percentile(sigma_post, 2.5)
sigma_ci_upper = np.percentile(sigma_post, 97.5)
sigma_in_ci = sigma_ci_lower <= true_sigma <= sigma_ci_upper
print(f"  {'σ':>4}: [{sigma_ci_lower:6.2f}, {sigma_ci_upper:6.2f}] {'✓' if sigma_in_ci else '✗'}")

In [None]:
# ベイズ線形回帰結果の可視化
fig, axes = plt.subplots(2, 3, figsize=(15, 10))

# トレースプロット
param_names = ['切片', '傾き1', '傾き2']
for i in range(3):
    axes[0, i].plot(results_reg['beta'][:, i], alpha=0.8, linewidth=0.8)
    axes[0, i].axhline(true_beta[i], color='red', linestyle='--', linewidth=2, 
                       label=f'真値 = {true_beta[i]:.2f}')
    axes[0, i].axvline(burnin, color='gray', linestyle=':', alpha=0.7, label='Burn-in')
    axes[0, i].set_title(f'{param_names[i]}のトレースプロット')
    axes[0, i].set_xlabel('Iteration')
    axes[0, i].set_ylabel(f'{param_names[i]}')
    axes[0, i].legend()
    axes[0, i].grid(True, alpha=0.3)

# 事後分布のヒストグラム
for i in range(3):
    axes[1, i].hist(beta_post[:, i], bins=50, density=True, alpha=0.7, 
                    color=f'C{i}', label=f'{param_names[i]} 事後分布')
    axes[1, i].axvline(true_beta[i], color='red', linestyle='--', linewidth=2,
                       label=f'真値 = {true_beta[i]:.2f}')
    axes[1, i].axvline(np.mean(beta_post[:, i]), color='blue', linestyle='-', linewidth=2,
                       label=f'事後平均 = {np.mean(beta_post[:, i]):.2f}')
    axes[1, i].set_title(f'{param_names[i]}の事後分布')
    axes[1, i].set_xlabel(f'{param_names[i]}')
    axes[1, i].set_ylabel('密度')
    axes[1, i].legend()
    axes[1, i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 予測と残差の分析
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 観測値 vs 予測値
y_pred_mean = X_reg @ np.mean(beta_post, axis=0)
axes[0].scatter(y_reg, y_pred_mean, alpha=0.7)
min_val = min(y_reg.min(), y_pred_mean.min())
max_val = max(y_reg.max(), y_pred_mean.max())
axes[0].plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, label='y=x')
axes[0].set_xlabel('観測値')
axes[0].set_ylabel('予測値（事後平均）')
axes[0].set_title('観測値 vs 予測値')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# 残差プロット
residuals_mean = y_reg - y_pred_mean
axes[1].scatter(y_pred_mean, residuals_mean, alpha=0.7)
axes[1].axhline(0, color='red', linestyle='--', linewidth=2)
axes[1].set_xlabel('予測値')
axes[1].set_ylabel('残差')
axes[1].set_title('残差プロット')
axes[1].grid(True, alpha=0.3)

# σの事後分布
axes[2].hist(sigma_post, bins=50, density=True, alpha=0.7, color='orange')
axes[2].axvline(true_sigma, color='red', linestyle='--', linewidth=2,
                label=f'真値 = {true_sigma:.2f}')
axes[2].axvline(np.mean(sigma_post), color='blue', linestyle='-', linewidth=2,
                label=f'事後平均 = {np.mean(sigma_post):.2f}')
axes[2].set_title('σの事後分布')
axes[2].set_xlabel('σ')
axes[2].set_ylabel('密度')
axes[2].legend()
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 予測区間の可視化（1次元の場合の例）
if X_reg.shape[1] == 3:  # 切片 + 2つの予測子の場合
    # 第1予測子を固定して第2予測子との関係を可視化
    x1_fixed = 0  # 第1予測子を0に固定
    x2_range = np.linspace(-3, 3, 50)
    X_pred = np.column_stack([np.ones(len(x2_range)), 
                             np.full(len(x2_range), x1_fixed), 
                             x2_range])
    
    # 事後サンプルから予測分布を計算
    n_pred_samples = 100
    pred_samples = np.zeros((n_pred_samples, len(x2_range)))
    
    for i in range(n_pred_samples):
        idx = np.random.randint(len(beta_post))
        beta_sample = beta_post[idx]
        sigma_sample = sigma_post[idx]
        
        mean_pred = X_pred @ beta_sample
        pred_samples[i] = np.random.normal(mean_pred, sigma_sample)
    
    # 予測区間の計算
    pred_mean = np.mean(pred_samples, axis=0)
    pred_lower = np.percentile(pred_samples, 2.5, axis=0)
    pred_upper = np.percentile(pred_samples, 97.5, axis=0)
    
    plt.figure(figsize=(10, 6))
    plt.fill_between(x2_range, pred_lower, pred_upper, alpha=0.3, color='lightblue', 
                     label='95%予測区間')
    plt.plot(x2_range, pred_mean, 'b-', linewidth=2, label='予測平均')
    
    # データ点をプロット（第1予測子が0に近いもの）
    mask = np.abs(X_reg[:, 1] - x1_fixed) < 0.5
    if np.any(mask):
        plt.scatter(X_reg[mask, 2], y_reg[mask], color='red', alpha=0.7, 
                   label='観測データ', s=50)
    
    plt.xlabel('予測子2')
    plt.ylabel('応答変数')
    plt.title(f'予測区間（予測子1 = {x1_fixed}で固定）')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()

## まとめ：ギブスサンプリング完全理解

この章では、ギブスサンプリングについて包括的に学習しました：

### 🧠 核心的理解

1. **基本原理**：複雑な同時分布を条件付き分布の連鎖に分解
2. **数学的美しさ**：「受理率100%」の驚異的効率性
3. **MH法との関係**：詳細釣り合い条件を満たす特殊なMH法

### 🔧 実践的スキル

4. **実装技術**：
   - 多変量正規分布での解析的導出
   - 混合モデルでの潜在変数の扱い
   - ブロックギブスによる効率化
   - ベイズ線形回帰での完全な事後分布推定

### 📊 重要な応用パターン

5. **適用場面**：
   - **多変量正規分布**: 解析解が利用できる理想的ケース
   - **混合モデル**: 潜在変数と観測変数の交互更新
   - **階層ベイズモデル**: パラメータ層の効率的サンプリング
   - **回帰分析**: 共役事前分布による高速推定

## 🎯 実践的MCMCアルゴリズム選択ガイド

### 決定フローチャート

```
問題設定
    ↓
すべての完全条件付き分布が既知？
    ↓           ↓
   Yes         No
    ↓           ↓
ギブスサンプリング   変数間の相関は？
    ↓           ↓        ↓
性能は満足？    高い      低い
    ↓           ↓        ↓
   Yes   ブロックギブス   MH法
    ↓           ↓        ↓
  完了      効果あり？    ハイブリッド
              ↓        検討
             Yes
              ↓
            完了
```

### 📋 アルゴリズム選択マトリックス

| 状況 | 推奨手法 | 理由 | 注意点 |
|------|----------|------|--------|
| **すべて共役** | ギブス | 受理率100% | 高相関時は要注意 |
| **一部非共役** | ハイブリッド | 効率とロバスト性 | 実装複雑度up |
| **高次元・高相関** | ブロックギブス | 相関構造を考慮 | ブロック設計が重要 |
| **複雑尤度** | MH法 | 汎用性が高い | チューニング必要 |
| **階層構造** | ギブス | 自然な分解可能 | レベル間の設計 |
| **混合モデル** | ギブス | 潜在変数が自然 | ラベルスイッチング |

### 🚀 性能最適化の戦略

#### Phase 1: 基本実装
1. **純粋ギブス**: 条件付き分布がすべて既知なら最初に試す
2. **診断**: 収束と混合の確認
3. **問題特定**: ボトルネックの発見

#### Phase 2: 高度化
1. **ブロック化**: 相関のある変数をグループ化
2. **適応的更新**: パフォーマンスに応じた動的調整
3. **並列化**: 独立な部分の同時処理

#### Phase 3: ハイブリッド
1. **部分MH**: 困難な変数のみMH法に
2. **階層最適化**: レベル別の手法選択
3. **動的切り替え**: 条件に応じた手法変更

### ⚡ 効率性のベンチマーク指標

| 指標 | 計算式 | 目標値 | 
|------|--------|--------|
| **有効サンプルサイズ** | N / (2τ + 1) | > 400 |
| **混合効率** | ESS / 計算時間 | 問題依存 |
| **収束速度** | R-hat < 1.01 達成時間 | 早いほど良い |

### 🎨 実装品質のチェックリスト

#### 数値安定性
- [ ] 対数スケール計算で数値オーバーフロー回避
- [ ] 条件付き分散の正定値性確保
- [ ] 例外処理とフォールバック機構

#### コード品質
- [ ] モジュラー設計：各更新ステップの独立化
- [ ] パフォーマンス監視：実行時診断機能
- [ ] 拡張性：新しい変数の容易な追加

#### 診断機能
- [ ] リアルタイム収束監視
- [ ] 自動ボトルネック検出
- [ ] 詳細なログ出力

### 🔮 Advanced Topics

#### 最新の発展
- **適応的ブロッキング**: データ駆動的ブロック決定
- **幾何学的エルゴード性**: 理論的収束保証
- **GPU並列化**: 大規模データでの高速化

#### 研究フロンティア
- **変分ギブス**: 近似推論との融合
- **量子アニーリング**: 量子計算との組み合わせ
- **オンライン学習**: ストリーミングデータへの適用

### 💡 成功の秘訣

> **「適切な分解が効率の9割を決める」** - 問題の数学的構造を理解し、最も自然な変数分割を見つけることがギブスサンプリング成功の鍵です。

**記憶すべき原則:**
- 🎯 **共役性の活用**: 解析解が得られる部分は積極的に利用
- 🔗 **相関の理解**: 変数間の依存構造を把握してブロック設計
- ⚖️ **バランス重視**: 効率性とロバスト性のトレードオフ
- 🔄 **反復改善**: 初期実装から段階的な最適化

### 🌐 実世界での応用例

**🔬 科学研究:**
- 遺伝子発現データの階層モデル
- 気候変動の空間時間モデル
- 疫学データの多レベル分析

**💼 ビジネス:**
- 顧客セグメンテーション
- 需要予測の階層モデル
- A/Bテストの多変量解析

**🤖 機械学習:**
- トピックモデル（LDA）
- ベイジアンニューラルネット
- 推薦システムの協調フィルタリング

あなたは今、**ギブスサンプリングの真の力**を理解し、実際の問題に応用できる準備が整いました。次の章で学ぶ収束診断と組み合わせることで、信頼性の高いベイズ推論システムを構築できるでしょう！

### 🎓 Next Challenge

複雑な実問題（例：多変量時系列、空間統計、生存解析）にギブスサンプリングを適用し、**効率性と精度の両立**を実現してみてください。これが、真の専門性の証明となります。