### Bayesian Ridge Regression
#### Ridge Regression
$x = (1, x_{1}, x_{2}, ... , x_{d})$なる事例を$n$個束ねた行列$X$を考える.
重みベクトル$w = (w_{0}, w_{1}, w_{2}, ..., w_{d})^{T}$を利用して...
$$
argmin_{w} \ \{ | y - (Xw) |^{2} + \lambda || w || \}
$$
を満たす最適な$w$ベクトルを求める回帰分析をRidge回帰と呼ぶ.

In [2]:
from sklearn import linear_model

X = [[0., 0.], [1., 1.], [2., 2.], [3.,3.]]
y = [0., 1., 2., 3.]
reg = linear_model.BayesianRidge()
reg.fit(X, y)

BayesianRidge(alpha_1=1e-06, alpha_2=1e-06, compute_score=False, copy_X=True,
       fit_intercept=True, lambda_1=1e-06, lambda_2=1e-06, n_iter=300,
       normalize=False, tol=0.001, verbose=False)

トレーニングデータについて学習したあと, モデルは新しい値について予測を行うことができる.
得られた重みは`OLS`のそれらに比較して少しだけ違うことがわかる.
曰く, Bayesian Ridge Regressionのほうがロバストらしい.

In [3]:
reg.predict([[1, 0]])

array([ 0.50000013])

In [4]:
reg.coef_

array([ 0.49999993,  0.49999993])

In [8]:
import statsmodels.api as sm

res = sm.OLS(y, X).fit()
print(res.summary())
res.predict([[1., 0.]])

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 2.366e+31
Date:                Mon, 21 Aug 2017   Prob (F-statistic):           1.92e-47
Time:                        21:06:30   Log-Likelihood:                 134.10
No. Observations:                   4   AIC:                            -266.2
Df Residuals:                       3   BIC:                            -266.8
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1             0.5000   1.03e-16   4.86e+15      0.0



array([ 0.5])

`OLS`では, 推定結果が$w = (0.5, 0.5)$であった一方で, `BayesianRidgeRegression`では推定結果が$w = (0.4993, 0.4993)$とわずかに異なることがわかる.

$w$に$L2$正則化項によるペナルティが課せられているため, 重みが小さくなっていることが確認できる.