In [None]:
from matplotlib import pyplot as plt
import japanize_matplotlib
import scipy.stats as stats
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [None]:
np.random.seed(42)

# ベルヌーイ分布の推定

In [None]:
# データの生成
x = np.random.binomial(1, 0.05, 100)

print(x)

In [None]:
# x における1の数
n_1 = np.sum(x)
# x における0の数
n_0 = len(x) - n_1

print(f'0の数: {n_0}, 1の数: {n_1}')

In [None]:
# 出現回数のグラフ化
plt.bar([0, 1], [n_0, n_1])
plt.xticks([0, 1], ['0', '1'])
plt.xlabel('x')
plt.ylabel('出現回数')
plt.title('0と1の出現回数')
plt.show();

In [None]:
# x における1の割合
theta_hat = n_1 / len(x)
print(f'1の割合: {theta_hat}')

In [None]:
# 推定したベルヌーイ分布の描画
plt.bar([0, 1], [1-theta_hat, theta_hat])
plt.xticks([0, 1], ['0', '1'])
plt.xlabel('x')
plt.ylabel('確率')
plt.title('推定された確率分布')
plt.show();

# ポアソン分布の推定

In [None]:
# データの生成
x = np.random.poisson(4, 100)

print(x)

In [None]:
# ポアソン分布のパラメータλを最尤推定で推定
lambda_hat = np.mean(x)
print(f'λの推定値: {lambda_hat}')

In [None]:
# 観測値の相対度数の棒グラフと推定された確率関数を描画
hist, _ = np.histogram(x, bins=20, range=(0, 20))
hist = hist / len(x)
plt.bar(range(20), hist, alpha=0.6)
y = stats.poisson.pmf(range(20), lambda_hat)
plt.plot(range(20), y, marker='o', color='orange')
plt.xlabel('x')
plt.ylabel('確率')
plt.title('ポアソン分布の推定')
plt.xticks(range(20))
plt.show();

# 正規分布の推定

In [None]:
# データの生成
x = np.random.normal(5, 0.05, 500)
print(x)

In [None]:
# パラメータの最尤推定
mu_hat = np.mean(x)
sigma2_hat = np.var(x)
print(f'平均: {mu_hat}, 分散: {sigma2_hat}')

In [None]:
# 観測値の相対度数のヒストグラムと推定された確率密度関数を描画
plt.hist(x, bins=20, density=True, alpha=0.6)
temp = np.linspace(4.8, 5.2, 100)
y = stats.norm.pdf(temp, mu_hat, np.sqrt(sigma2_hat))
plt.plot(temp, y, color='orange')
plt.xlabel('x')
plt.ylabel('確率密度')
plt.title('正規分布の推定')
plt.show();

# 指数分布の推定

In [None]:
# データの生成
x = np.random.exponential(0.2, 300)
print(x)

In [None]:
# λの最尤推定
lambda_hat = 1 / np.mean(x)
print(f'λの推定値: {lambda_hat}')

In [None]:
# 観測値の相対度数のヒストグラムと推定された確率密度関数を描画
plt.hist(x, bins=20, density=True, alpha=0.6)
temp = np.linspace(0, 1.5, 100)
y = stats.expon.pdf(temp, scale=1/lambda_hat)
plt.plot(temp, y, color='orange')
plt.xlabel('x')
plt.ylabel('確率密度')
plt.title('指数分布の推定')
plt.show();

# 層別

In [None]:
# データの生成
mu_1 = 1
mu_2 = 3
mu_3 = 2
sigma2_1 = 0.1
sigma2_2 = 0.2
sigma2_3 = 0.3
x1 = np.random.normal(mu_1, np.sqrt(sigma2_1), 100)
x2 = np.random.normal(mu_2, np.sqrt(sigma2_2), 100)
x3 = np.random.normal(mu_3, np.sqrt(sigma2_3), 100)

In [None]:
# 層ごとに平均と分散を推定

mu_1_hat = np.mean(x1)
mu_2_hat = np.mean(x2)
mu_3_hat = np.mean(x3)
sigma2_1_hat = np.var(x1)
sigma2_2_hat = np.var(x2)
sigma2_3_hat = np.var(x3)

print(f'平均1: {mu_1_hat}, 分散1: {sigma2_1_hat}')
print(f'平均2: {mu_2_hat}, 分散2: {sigma2_2_hat}')
print(f'平均3: {mu_3_hat}, 分散3: {sigma2_3_hat}')

In [None]:
# x1のヒストグラムと推定された確率密度関数を描画
plt.hist(x1, bins=20, density=True, alpha=0.6)
temp = np.linspace(0, 5, 100)
y = stats.norm.pdf(temp, mu_1_hat, np.sqrt(sigma2_1_hat))
plt.plot(temp, y, color='orange')
plt.xlabel('x')
plt.ylabel('確率密度')
plt.title('若年層のデータに対する正規分布の推定')
plt.show();

In [None]:
# x2のヒストグラムと推定された確率密度関数を描画
plt.hist(x2, bins=20, density=True, alpha=0.6)
temp = np.linspace(0, 5, 100)
y = stats.norm.pdf(temp, mu_2_hat, np.sqrt(sigma2_2_hat))
plt.plot(temp, y, color='orange')
plt.xlabel('x')
plt.ylabel('確率密度')
plt.title('中年層のデータに対する正規分布の推定')
plt.show();

In [None]:
# x3のヒストグラムと推定された確率密度関数を描画
plt.hist(x3, bins=20, density=True, alpha=0.6)
temp = np.linspace(0, 5, 100)
y = stats.norm.pdf(temp, mu_3_hat, np.sqrt(sigma2_3_hat))
plt.plot(temp, y, color='orange')
plt.xlabel('x')
plt.ylabel('確率密度')
plt.title('高齢層のデータに対する正規分布の推定')
plt.show();

# 単回帰分析

In [None]:
# データの生成
x = np.round(np.random.exponential(5, 100), 1)
y = np.round(1 + 0.2*x +np.random.normal(0, 0.5, 100), 1)

In [None]:
# 最小二乗法でパラメータを推定
alpha_hat = np.cov(x, y)[0, 1] / np.var(x)
beta_hat = np.mean(y) - alpha_hat * np.mean(x)
print(f'αの推定値: {alpha_hat}, βの推定値: {beta_hat}')

In [None]:
# 散布図と回帰直線を描画
plt.scatter(x, y)
temp = np.linspace(0, 35, 100)
plt.plot(temp, alpha_hat*temp + beta_hat, color='orange')
plt.xlabel('x')
plt.ylabel('y')
plt.title('散布図と推定された回帰直線')
plt.show();

# 重回帰分析

In [None]:
# データの生成（x1は単回帰のxを転用）
x1 = x
x2 = np.floor(np.abs(100*x1+np.random.normal(0, 10, 100))).astype(int)

y = np.round(1 + 0.1*x1 + 0.03*x2 + np.random.normal(0, 0.1, 100), 1)

In [None]:
# 回帰係数を最小2乗法により推定
X = np.stack([x1, x2], axis=1)
X_with_const = np.hstack([np.ones((100, 1)), X])
beta_hat = np.linalg.inv(X_with_const.T @ X_with_const) @ X_with_const.T @ y
print(f'βの推定値: {beta_hat}')

In [None]:
# 推定した重回帰の平面を図示
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
temp1 = np.linspace(0, 35, 100)
temp2 = np.linspace(0, 3500, 100)
temp1, temp2 = np.meshgrid(temp1, temp2)
temp_y = beta_hat[0] + beta_hat[1]*temp1 + beta_hat[2]*temp2
ax.plot_surface(temp1, temp2, temp_y, alpha=0.5, color='orange')
ax.set_xlabel('x1')
ax.set_ylabel('x2')
ax.set_zlabel('y')
plt.title('重回帰分析の結果')
plt.show();

# ランダムフォレストによる条件付き期待値の推定

In [None]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor()
model.fit(X, y)

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
temp1 = np.linspace(0, 35, 100)
temp2 = np.linspace(0, 3500, 100)
temp1, temp2 = np.meshgrid(temp1, temp2)
X_pred = np.column_stack([temp1.ravel(), temp2.ravel()])

# ランダムフォレストによる予測値を計算
y_pred = model.predict(X_pred).reshape(temp1.shape)

# 3D サーフェスプロットの描画
surf = ax.plot_surface(temp1, temp2, y_pred, cmap='viridis', edgecolor='none')
ax.set_xlabel("x1")
ax.set_ylabel("x2")
ax.set_zlabel("Predicted y")
ax.set_title("ランダムフォレストの学習結果")
fig.colorbar(surf, ax=ax, shrink=0.5, aspect=10)
plt.show();

# 重回帰分析のベイズ推論

In [None]:
# 事前分布の設定
prior_beta_mean = 0
prior_beta_s = 0.01
prior_s_e_a = 1
prior_s_e_b = 50

# gibbs sampling
np.random.seed(0)
n = X_with_const.shape[0]
p = X_with_const.shape[1]

# 初期値
beta = np.zeros(p)
s_e = 1
n_iter = 10000
beta_samples = np.zeros((n_iter, p))
sig2_e_samples = np.zeros(n_iter)

for i in range(n_iter):
    # βのサンプリング
    beta_cov = np.linalg.inv(s_e * X_with_const.T @ X_with_const + prior_beta_s * np.eye(p) )
    beta_mean = beta_cov @ (s_e * X_with_const.T @ y + prior_beta_s * prior_beta_mean)
    beta = np.random.multivariate_normal(beta_mean, beta_cov)
    beta_samples[i] = beta

    # s_eのサンプリング
    s_e_a_new = prior_s_e_a + n/2
    s_e_b_new = prior_s_e_b + 0.5 * (y - X_with_const @ beta).T @ (y - X_with_const @ beta)
    s_e = np.random.gamma(s_e_a_new, 1/s_e_b_new)
    sig2_e_samples[i] = 1./s_e

In [None]:
# 回帰係数の事前分布の描画
x= np.linspace(-50, 50, 1000)
y = stats.norm.pdf(x, loc=0, scale=10)
plt.plot(x, y)
plt.xlabel(r'$\beta_{2}$')
plt.ylabel(r'$p(\beta_{2})$')
plt.show();

In [None]:
# 誤差の分散の事前分布の描画
x = np.linspace(0, 400, 1000)
y = stats.invgamma.pdf(x, a=1, scale=50)
plt.plot(x, y)
plt.xlabel(r'$\sigma_{\varepsilon}^{2}$')
plt.ylabel(r'$p(\sigma_{\varepsilon}^{2})$')
plt.show();

In [None]:
# β_{0}の事後分布の描画（事後サンプルのヒストグラム）
plt.hist(beta_samples[:, 0], bins=50, density=True, color='orange')
plt.xlabel(r'$\beta_{0}$')
plt.show();

In [None]:
# β_{1}の事後分布の描画（事後サンプルのヒストグラム）
plt.hist(beta_samples[:, 1], bins=50, density=True, color='orange')
plt.xlabel(r'$\beta_{1}$')
plt.show();

In [None]:
# β_{2}の事後分布の描画（事後サンプルのヒストグラム）
plt.hist(beta_samples[:, 2], bins=50, density=True, color='orange')
plt.xlabel(r'$\beta_{2}$')
plt.show();

In [None]:
# \sigma^{2}の事後分布の描画（事後サンプルのヒストグラム）
plt.hist(sig2_e_samples, bins=50, density=True, color='orange')
plt.xlabel(r'$\sigma_{\varepsilon}^{2}$')
plt.show();

In [None]:
# 事後平均の計算
np.mean(beta_samples, axis=0)

In [None]:
# 各回帰係数が0より大きい事後確率の計算
np.mean(beta_samples>0, axis=0)

# 層別とダミー変数

In [None]:
# データの生成
beta_0_1 = 0.5
beta_0_2 = 1.5
beta_0_3 = 1
beta_1_1 = 0.1
beta_1_2 = 0.2
beta_1_3 = 0.15

x = np.round(np.random.exponential(5, 300), 1)

y1 = beta_0_1 + beta_1_1*x[0:100] + np.random.normal(0, 0.1, 100)
y2 = beta_0_2 + beta_1_2*x[100:200] + np.random.normal(0, 0.3, 100)
y3 = beta_0_3 + beta_1_3*x[200:300] + np.random.normal(0, 0.2, 100)

In [None]:
# x[0:100]とy1の単回帰分析
alpha_hat_1 = np.cov(x[0:100], y1)[0, 1] / np.var(x[0:100])
beta_hat_1 = np.mean(y1) - alpha_hat_1 * np.mean(x[0:100])
print(f'α1: {alpha_hat_1}, β1: {beta_hat_1}')

In [None]:
# x[100:200]とy2の単回帰分析
alpha_hat_2 = np.cov(x[100:200], y2)[0, 1] / np.var(x[100:200])
beta_hat_2 = np.mean(y2) - alpha_hat_2 * np.mean(x[100:200])
print(f'α2: {alpha_hat_2}, β2: {beta_hat_2}')

In [None]:
# x[200:300]とy3の単回帰分析
alpha_hat_3 = np.cov(x[200:300], y3)[0, 1] / np.var(x[200:300])
beta_hat_3 = np.mean(y3) - alpha_hat_3 * np.mean(x[200:300])
print(f'α3: {alpha_hat_3}, β3: {beta_hat_3}')

In [None]:
# 散布図と回帰直線を描画
plt.scatter(x[0:100], y1, color='blue', label='若年層')
plt.scatter(x[100:200], y2, color='orange', label='中年層')
plt.scatter(x[200:300], y3, color='green', label='高齢層')
temp = np.linspace(0, 35, 100)
plt.plot(temp, alpha_hat_1*temp + beta_hat_1, color='blue')
plt.plot(temp, alpha_hat_2*temp + beta_hat_2, color='orange')
plt.plot(temp, alpha_hat_3*temp + beta_hat_3, color='green')
plt.xlabel('x')
plt.ylabel('y')
plt.title('散布図と回帰直線')
plt.legend()
plt.show();

In [None]:
# ダミー変数を作成
x1 = np.zeros(300)
x1[100:200] = 1
x2 = np.zeros(300)
x2[200:300] = 1

# ダミー変数を使った重回帰分析
X = np.stack([x, x1, x2], axis=1)
X = np.hstack([np.ones((300, 1)), X])
beta_hat = np.linalg.inv(X.T @ X) @ X.T @ np.hstack([y1, y2, y3])
print(f'β: {beta_hat}')

In [None]:
# 散布図と回帰直線を描画
plt.scatter(x[0:100], y1, color='blue', label='若年層')
plt.scatter(x[100:200], y2, color='orange', label='中年層')
plt.scatter(x[200:300], y3, color='green', label='高齢層')
temp = np.linspace(0, 35, 100)
plt.plot(temp, beta_hat[0] + beta_hat[1]*temp, color='blue')
plt.plot(temp, beta_hat[0] + beta_hat[2] + beta_hat[1]*temp, color='orange')
plt.plot(temp, beta_hat[0] + beta_hat[3] + beta_hat[1]*temp, color='green')
plt.xlabel('x')
plt.ylabel('y')
plt.title('散布図と回帰直線')
plt.legend()
plt.show();

# ロジスティック回帰分析

In [None]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# データの生成
beta_0 = 0.5
beta_1_1 = -1
beta_1_2 = -2
beta_2 = 1

p_y = sigmoid(beta_0 + beta_1_1*x1 + beta_1_2*x2+beta_2*x)
y = np.random.binomial(1, p_y, 300)

In [None]:
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰分析
model = LogisticRegression(penalty=None)
model.fit(X, y)
print(f"回帰係数の推定値{model.coef_}")

In [None]:
beta_hat[0] = model.coef_[0, 0]
beta_hat[1] = model.coef_[0, 1]
beta_hat[2] = model.coef_[0, 2]
beta_hat[3] = model.coef_[0, 3]

In [None]:
# 推定した確率の描画
x = np.linspace(0, 10, 100)
p_y_0 = sigmoid(beta_hat[0]+beta_hat[1]*x)
p_y_1 = sigmoid(beta_hat[0]+beta_hat[2]+beta_hat[1]*x)
p_y_2 = sigmoid(beta_hat[0]+beta_hat[3]+beta_hat[1]*x)

plt.plot(x, p_y_0, color='blue', label='若年層')
plt.plot(x, p_y_1, color='orange', label='中年層')
plt.plot(x, p_y_2, color='green', label='高齢層')
plt.xlabel('x')
plt.ylabel(r'$p_{Y|X_{1}, X_{2}}(1)$の推定値')
plt.legend();