# 線形回帰

標本$\{({\bf x_n}, y_n)\}_n$が与えられたとき、説明変数${\bf x}$から目的変数$y$を

$$
f({\bf x}) \equiv {\bf w}^T {\bf x} = \Sigma_i w_i x_i
$$

という関数によって予測するモデルを線形回帰モデルという。ここで${\bf w}$はパラメータであり、これと${\bf x}$の線形結合によって$y$を予測している。学習を通してこのパラメータ${\bf w}$を決定する。

損失関数を二乗和誤差とし、それが最小となるような${\bf w}$を求める。ここで、二乗和誤差MSEは次のように定義される。

$$
\text{MSE} \equiv \frac{1}{N} \Sigma_{n=1}^N || y_n - f({\bf x_n})||^2
$$

ここで$N$はデータ数を表している。
いま、訓練データをまとめて

\begin{eqnarray*}
X \equiv
\left(
\begin{array}{c}
{\bf x_1}^T \\
\vdots \\
{\bf x_N}^T
\end{array}
\right)
,
{\bf y} \equiv
\left(
\begin{array}{c}
y_1 \\
\vdots \\
y_N
\end{array}
\right)
\end{eqnarray*}

とおく。このとき、MSEは($f({\bf x}) = {\bf x}^T {\bf w}$に注意すると)

$$
\text{MSE} = \frac{1}{N} || {\bf y} - X {\bf w}||^2
$$

と書き直せる。


データ$\{ ({\bf x_n}, y_n) \}_n$から(${\bf w}$について)最尤推定することを考える。関数$L({\bf w})$を

$$
L({\bf w}) \equiv || {\bf y} - X {\bf w}||^2
$$

とすれば、MSE最小化は

$$
argmax_{\bf w} L({\bf w})
$$

という制約なし最適化問題になる。ここで、MSEの$\frac{1}{N}$は定数なので無視している。

$L$を${\bf w}$で微分すると

\begin{eqnarray*}
\frac{\partial}{\partial {\bf w}} L({\bf w}) &=&
\frac{\partial}{\partial {\bf w}} ({\bf y} - X {\bf w})^T ({\bf y} - X {\bf w}) \\
&=& \frac{\partial}{\partial {\bf w}} ({\bf y}^T {\bf y} - {\bf w}^T X^T {\bf y} - {\bf y}^T X {\bf w} + {\bf w}^T X^T X {\bf w}) \\
&=& - X^T {\bf y} - ({\bf y}^T X)^T + (X^T X + X^T X) {\bf w} \\
&=& - 2 X^T {\bf y} + 2 X^T X {\bf w}
\end{eqnarray*}

となる。これを${\bf 0}$とおけば

$$
X^T X {\bf w} = X^T {\bf y}
$$

という方程式が得られる。これは正規方程式と呼ばれている。
$X$は行ベクトル${\bf x_n}$を列方向に並べたものなので、${\bf x_n} \in {\mathbb R^D}$とすれば$X \in R^{ND}$となる。$\text{rank}(X) = D$ならば$X^T X$は逆行列を持ち、

$$
{\bf w} = (X^T X)^{-1} X^T {\bf y}
$$

と解析的に解ける。

線形回帰に正則化項を加えることで、${\bf w}$が大きくなりすぎないようにしながら最適化することができる。
$\lambda$を正の定数として

$$
L({\bf w}) \equiv || {\bf y} - X {\bf w} ||^2 + \lambda || {\bf w} ||^2
$$

とし、この$L$を最適化することを考える。先と同様にして

\begin{eqnarray*}
\frac{\partial}{\partial {\bf w}} L({\bf w})
= - 2 X^T {\bf y} + 2 X^T X {\bf w} + \lambda {\bf w}
\end{eqnarray*}

となるので、これを0とおけば

\begin{eqnarray*}
(X^T X + \lambda I_N) {\bf w} = X^T {\bf y}
\end{eqnarray*}

となる。よって適当な仮定のもとで解析的に解くことができる。
($X^T X$に逆行列が存在しない場合でも、$\lambda$を適当に大きくとることで$X^T X + \lambda I_N$に逆行列が存在するようにできることが知られている。)