# 各サンプルにおけるベイズ最適性の確認

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from tqdm import tqdm
from scipy.stats import entropy
from sklearn.linear_model import LogisticRegression
from polyagamma import random_polyagamma
from utils.generate import generate_data
from utils.metrics import KLD
from models.proposed_method import proposed_method
from models.compared_methods import compared_methods

ImportError: cannot import name 'generate_data' from 'utils.generate' (/Users/abetaichi/master/Lab/research/selection_bias/for_paper/src/utils/generate.py)

In [88]:
import warnings
warnings.filterwarnings('ignore')

In [55]:
# パラメータ設定
n_samples = 100  # サンプルサイズ
n_features = 1  # 特徴量数（切片除く）
X_mu_list = [10]  # 各特徴量の平均
X_sigma_list = [10]  # 各特徴量の標準偏差
beta_mu_list = [1, 1]  # パラメータの平均 (切片を含む)
beta_sigma_list = [0.1, 0.1]  # パラメータの標準偏差 (切片を含む)

X_feature_bias = 1 # 0は切片
center_of_sampling = 0
window_size = 3

# データ生成
data_generator = generate_data(n_features, X_mu_list, X_sigma_list, beta_mu_list, beta_sigma_list)
X, y = data_generator.generate_non_bias_data()
X_bias, y_bias = data_generator.generate_bias_data_deterministic(n_samples, X_feature_bias, center_of_sampling, window_size)
P_true = y.mean()

# P_yの推定
b_0 = np.array([0.001,0.001])
B_0 = np.array([[100,0],
                [0,100]])
burn=5000
draw=10000

proposed_model = proposed_method(X=X_bias, y=y_bias, b_0=b_0, B_0=B_0, X_mu=X_mu_list, X_sigma=X_sigma_list, burn=burn, draw=draw)
_ = proposed_model.sample_beta() # バーンインも含まれるので注意
P_y_proposed = proposed_model.estimate()

compared_model = compared_methods(X=X_bias, y=y_bias, X_mu=X_mu_list, X_sigma=X_sigma_list)
P_y_sample_mean = compared_model.sample_mean()
P_y_ML = compared_model.maximum_likelihood(draw)

print(f"真のP_y: {P_true}")
print(f"提案手法によるP_y: {P_y_proposed}")
print(f"標本平均によるP_y: {P_y_sample_mean}")
print(f"最尤法によるP_y: {P_y_ML}")
KLD(P_true, P_y_ML)

真のP_y: 0.8578152
提案手法によるP_y: 0.8629875505564821
標本平均によるP_y: 0.72
最尤法によるP_y: 0.8429683287786903


np.float64(0.0008787283720850247)

In [89]:
# パラメータを母集団分布から生成してKL計算して...を指定の回数繰り返す
## 実験パターン：Xの母平均，サンプリング位置

Ex_num = 100 # パラメータを生成する回数
X_mu_cands = [-5,-2,0,2,5] # Xの母平均リスト
Center_num = 5 # サンプリング位置（個数を指定して自動生成）


# 実験設定（全パターン共通）
n_samples = 100  # サンプルサイズ
n_features = 1  # 特徴量数（切片除く）
X_sigma_list = [10]  # 各特徴量の標準偏差
beta_mu_list = [0, 1]  # パラメータの平均 (切片を含む)
beta_sigma_list = [1, 1]  # パラメータの標準偏差 (切片を含む)

X_feature_bias = 1 # 0は切片
window_size = X_sigma_list[0] / 2

# P_yの推定
b_0 = np.array([0.001,0.001])
B_0 = np.array([[100,0],
                [0,100]])
burn=2000
draw=5000

for X_mu in X_mu_cands: # Xの母平均を変更
    #lower = X_mu - X_sigma_list[0] / 2
    #upper = X_mu + X_sigma_list[0] / 2
    lower = -5
    upper = 5
    center_list = np.linspace(lower, upper, Center_num)
    KL_list_proposed = []
    KL_list_sample_mean = []
    KL_list_ML = []

    for center in center_list: # サンプリング位置を変更
        KL_list_proposed_by_center = []
        KL_list_sample_mean_by_center = []
        KL_list_ML_by_center = []
        # 結果の表示
        print("-----------start-----------")
        print(f"共変量の母平均:{X_mu}")
        print(f"サンプリングの範囲{center-window_size}〜{center+window_size}")
        print("---------------------------")

        trial = 0 # KL計算に成功した回数（0と1を両方含むデータ生成に成功した回数）→Ex_numに到達したら終わり
        with tqdm() as pbar:
            while trial < Ex_num: # パラメータによるモンテカルロ平均（ベイズ最適な推定量）
                # データの生成
                X_mu_list = [X_mu] # リスト形式なので，リストに変更（あとで修正）
                data_generator = generate_data(n_features, X_mu_list, X_sigma_list, beta_mu_list, beta_sigma_list)
                X, y = data_generator.generate_non_bias_data()
                X_bias, y_bias = data_generator.generate_bias_data_deterministic(n_samples, X_feature_bias, center, window_size)

                # KLの計算
                P_true = y.mean() # 真のP
                P_bias_true = y_bias.mean()

                if (P_bias_true != 1) & (P_bias_true != 0):

                    proposed_model = proposed_method(X=X_bias, y=y_bias, b_0=b_0, B_0=B_0, X_mu=X_mu_list, X_sigma=X_sigma_list, burn=burn, draw=draw)
                    _ = proposed_model.sample_beta() # バーンインも含まれるので注意
                    P_y_proposed = proposed_model.estimate() # 提案によるP

                    compared_model = compared_methods(X=X_bias, y=y_bias, X_mu=X_mu_list, X_sigma=X_sigma_list)
                    P_y_sample_mean = compared_model.sample_mean() # 標本平均によるP
                    P_y_ML = compared_model.maximum_likelihood(draw) # 最尤推定によるP

                    KL_list_proposed_by_center.append(KLD(P_true, P_y_proposed))
                    KL_list_sample_mean_by_center.append(KLD(P_true, P_y_sample_mean))
                    KL_list_ML_by_center.append(KLD(P_true, P_y_ML))

                    pbar.update(1)
                    trial += 1
                else:
                    pass
        
        print(f"Yの母平均:{np.mean(y)}")
        print(f"提案の平均KL:{np.mean(KL_list_proposed_by_center)}")
        print(f"標本平均の平均KL:{np.mean(KL_list_sample_mean_by_center)}")
        print(f"最尤推定の平均KL:{np.mean(KL_list_ML_by_center)}")
    
        KL_list_proposed.append(np.mean(KL_list_proposed_by_center))
        KL_list_sample_mean.append(np.mean(KL_list_sample_mean_by_center))
        KL_list_ML.append(np.mean(KL_list_ML_by_center))

    # グラフ描画
    plt.plot(center_list, KL_list_proposed, label="Proposed method", color = "red",marker='*',markersize=12)
    plt.plot(center_list, KL_list_sample_mean, label="sample mean", color = "blue",marker='.',markersize=12)
    plt.plot(center_list, KL_list_ML, label="Maximum Likelihood", color = "green",marker='o',markersize=12)

    plt.title(f"X_mu:{X_mu}, X_sigma:{X_sigma_list[0]}, β0:N({beta_mu_list[0]},{beta_sigma_list[0]}), β1:N({beta_mu_list[0]},{beta_sigma_list[0]})", fontsize = 12)
    plt.xlabel("center of sampling", fontsize = 12)
    plt.ylabel("BayesRisk(Average KL Divergence)", fontsize = 12)
    plt.xlim(lower-0.5, upper+0.5)
    plt.legend(bbox_to_anchor=(0.99, 0.99), loc='upper right', borderaxespad=0, fontsize=12)

    save_dir = "../results/fig"
    plt.savefig(f"{save_dir}/BayesRisk_Xmu_{X_mu}.png")
    plt.close()

-----------start-----------
共変量の母平均:-5
サンプリングの範囲-10.0〜0.0
---------------------------


100it [04:16,  2.56s/it]


Yの母平均:0.7364772
提案の平均KL:0.008560724197854521
標本平均の平均KL:0.18035477288776325
最尤推定の平均KL:0.0153282267714156
-----------start-----------
共変量の母平均:-5
サンプリングの範囲-7.5〜2.5
---------------------------


100it [03:12,  1.92s/it]


Yの母平均:0.615609
提案の平均KL:0.003896342526501822
標本平均の平均KL:0.10654583307091794
最尤推定の平均KL:0.0063520816719622245
-----------start-----------
共変量の母平均:-5
サンプリングの範囲-5.0〜5.0
---------------------------


100it [03:07,  1.87s/it]


Yの母平均:0.3345332
提案の平均KL:0.005984269555752129
標本平均の平均KL:0.08589787675260929
最尤推定の平均KL:0.0065017280494835995
-----------start-----------
共変量の母平均:-5
サンプリングの範囲-2.5〜7.5
---------------------------


100it [03:24,  2.05s/it]


Yの母平均:0.312193
提案の平均KL:0.011352149252264307
標本平均の平均KL:0.5556643693032477
最尤推定の平均KL:0.007649318731000137
-----------start-----------
共変量の母平均:-5
サンプリングの範囲0.0〜10.0
---------------------------


100it [04:13,  2.53s/it]


Yの母平均:0.4054461
提案の平均KL:0.045725360100181564
標本平均の平均KL:0.7033534477470499
最尤推定の平均KL:0.04047921777237562
-----------start-----------
共変量の母平均:-2
サンプリングの範囲-10.0〜0.0
---------------------------


100it [04:28,  2.69s/it]


Yの母平均:0.2452451
提案の平均KL:0.017024167380993535
標本平均の平均KL:0.2508835052515221
最尤推定の平均KL:0.01505757330935884
-----------start-----------
共変量の母平均:-2
サンプリングの範囲-7.5〜2.5
---------------------------


100it [03:18,  1.99s/it]


Yの母平均:0.4382171
提案の平均KL:0.006112264394918502
標本平均の平均KL:0.19217496426087533
最尤推定の平均KL:0.01074358245540502
-----------start-----------
共変量の母平均:-2
サンプリングの範囲-5.0〜5.0
---------------------------


100it [03:15,  1.95s/it]


Yの母平均:0.4219724
提案の平均KL:0.0012783000350758468
標本平均の平均KL:0.0455803773977215
最尤推定の平均KL:0.001832892108135481
-----------start-----------
共変量の母平均:-2
サンプリングの範囲-2.5〜7.5
---------------------------


100it [03:15,  1.96s/it]


Yの母平均:0.4690987
提案の平均KL:0.006296672441668125
標本平均の平均KL:0.33594979616820453
最尤推定の平均KL:0.007773972262532633
-----------start-----------
共変量の母平均:-2
サンプリングの範囲0.0〜10.0
---------------------------


100it [04:14,  2.55s/it]


Yの母平均:0.3201726
提案の平均KL:0.0314732710258889
標本平均の平均KL:0.5040787015593422
最尤推定の平均KL:0.023596109066306967
-----------start-----------
共変量の母平均:0
サンプリングの範囲-10.0〜0.0
---------------------------


100it [07:20,  4.40s/it]


Yの母平均:0.6333818
提案の平均KL:0.021090707942822372
標本平均の平均KL:0.34999199952430404
最尤推定の平均KL:0.0161699263557516
-----------start-----------
共変量の母平均:0
サンプリングの範囲-7.5〜2.5
---------------------------


100it [10:32,  6.32s/it]


Yの母平均:0.4667426
提案の平均KL:0.007695624194825724
標本平均の平均KL:0.292171851800936
最尤推定の平均KL:0.0074479964037412714
-----------start-----------
共変量の母平均:0
サンプリングの範囲-5.0〜5.0
---------------------------


100it [02:04,  1.24s/it]


Yの母平均:0.5348019
提案の平均KL:0.002057632701594009
標本平均の平均KL:0.025075699270727315
最尤推定の平均KL:0.0035197943434563017
-----------start-----------
共変量の母平均:0
サンプリングの範囲-2.5〜7.5
---------------------------


100it [02:04,  1.25s/it]


Yの母平均:0.5326742
提案の平均KL:0.005788655573069825
標本平均の平均KL:0.2722633812704919
最尤推定の平均KL:0.00446698764109163
-----------start-----------
共変量の母平均:0
サンプリングの範囲0.0〜10.0
---------------------------


100it [02:41,  1.62s/it]


Yの母平均:0.4259074
提案の平均KL:0.022977861996382073
標本平均の平均KL:0.38623665543598257
最尤推定の平均KL:0.018613514088367446
-----------start-----------
共変量の母平均:2
サンプリングの範囲-10.0〜0.0
---------------------------


100it [02:50,  1.71s/it]


Yの母平均:0.645536
提案の平均KL:0.04443182739008284
標本平均の平均KL:0.5055560616489574
最尤推定の平均KL:0.03188650924619945
-----------start-----------
共変量の母平均:2
サンプリングの範囲-7.5〜2.5
---------------------------


100it [02:01,  1.22s/it]


Yの母平均:0.5796775
提案の平均KL:0.010783317803934515
標本平均の平均KL:0.3281100785422042
最尤推定の平均KL:0.011822725498947135
-----------start-----------
共変量の母平均:2
サンプリングの範囲-5.0〜5.0
---------------------------


100it [02:01,  1.22s/it]


Yの母平均:0.5552469
提案の平均KL:0.0013341664902667577
標本平均の平均KL:0.03682734059367565
最尤推定の平均KL:0.0036173937450601
-----------start-----------
共変量の母平均:2
サンプリングの範囲-2.5〜7.5
---------------------------


100it [02:02,  1.23s/it]


Yの母平均:0.4986023
提案の平均KL:0.004878727870061989
標本平均の平均KL:0.18149020696950555
最尤推定の平均KL:0.005445683469834418
-----------start-----------
共変量の母平均:2
サンプリングの範囲0.0〜10.0
---------------------------


100it [02:39,  1.59s/it]


Yの母平均:0.2361897
提案の平均KL:0.018918892595620462
標本平均の平均KL:0.30562840240016337
最尤推定の平均KL:0.011944496418086264
-----------start-----------
共変量の母平均:5
サンプリングの範囲-10.0〜0.0
---------------------------


100it [02:34,  1.55s/it]


Yの母平均:0.6733987
提案の平均KL:0.07414658628258515
標本平均の平均KL:0.7283911184592027
最尤推定の平均KL:0.058008848689899306
-----------start-----------
共変量の母平均:5
サンプリングの範囲-7.5〜2.5
---------------------------


100it [02:00,  1.20s/it]


Yの母平均:0.6773572
提案の平均KL:0.025242993537757403
標本平均の平均KL:0.5596931404432007
最尤推定の平均KL:0.02409673969188047
-----------start-----------
共変量の母平均:5
サンプリングの範囲-5.0〜5.0
---------------------------


100it [01:59,  1.19s/it]


Yの母平均:0.6938805
提案の平均KL:0.005314140884116838
標本平均の平均KL:0.07259859220656542
最尤推定の平均KL:0.008601833138676629
-----------start-----------
共変量の母平均:5
サンプリングの範囲-2.5〜7.5
---------------------------


100it [01:58,  1.19s/it]


Yの母平均:0.7132894
提案の平均KL:0.002720231572205796
標本平均の平均KL:0.09350293914119344
最尤推定の平均KL:0.0071510518271539845
-----------start-----------
共変量の母平均:5
サンプリングの範囲0.0〜10.0
---------------------------


100it [02:48,  1.69s/it]

Yの母平均:0.6663977
提案の平均KL:0.009285538833194839
標本平均の平均KL:0.15921833966424434
最尤推定の平均KL:0.012947286427712552





In [90]:
17/43 - 13/43

0.09302325581395349