# 最小二乗法
回帰分析の最も一般的な手法は**最小二乗法(least squares method)**と呼ばれます。まず学習データの一組 $(\mathbf{x}_i,y_i)$ に対して，$y_i$ の値と理論値 $f(\mathbf{x}_i)$ の誤差

$$ f(\mathbf{x}_i) - y_i $$

を**残差(residual)**と呼びます。最小二乗法では、与えられたデータセット $D=\{(\mathbf{x}_1,y_1),\ldots,(\mathbf{x}_n,y_n)\}$ に対する**残差平方和(residual sum of squares)**

$$ E = \sum_{i=1}^n|f(\mathbf{x}_i)-y_i|^2 $$

を最小化する事によって回帰方程式 $y=f(\mathbf{x})$ を得ます。計算を簡単にする為に、翌残差平方和の半分

$$ \tilde{E} = \frac{1}{2}\sum_{i=1}^n|f(\mathbf{x}_i)-y_i|^2 $$

を考える事が多いです。パラメトリックモデル $y=f(\mathbf{x} | \theta)$ の場合には、残差平方和はパラメータの関数

$$ E(\theta) = \sum_{i=1}^n|f(\mathbf{x}_i|\theta)-y_i|^2 $$

となります。すると、これを最小化するという事は最適化問題の１つになり、既に紹介したアルゴリズムを使う事が出来ます。

# 単回帰線形モデル
一変数のデータセット $D=\{(x_1,y_1),\ldots,(x_n,y_n)\}$ に対して、一次の回帰方程式

$$ y=ax+b $$

を最小二乗法で当てはめましょう。この場合、残差平方和は $a,b$ の関数であり

$$ E(a,b) = \frac{1}{2}\sum_{i=1}^n|ax_i+b-y_i|^2$$

となります。これを最小化したいので $a,b$ で偏微分しそれらを $0$ と置きます。

$$ \begin{aligned}
\frac{\partial E}{\partial a} &= \sum x_i(ax_i+b-y_i) = (\sum x_i^2)a+(\sum x_i)b - (\sum x_iy_i) = 0\\
\frac{\partial E}{\partial b} &= \sum (ax_i+b-y_i) = (\sum x_i)a + nb - (\sum y_i) = 0
\end{aligned} $$

これを解けば

$$ a = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2},\quad b = \frac{\sum x_i^2\sum y_i - \sum x_iy_i\sum x_i}{n\sum x_i^2 - (\sum x_i)^2}$$

が得られます。この式はもっと簡単に書くことが出来ますので、このまま覚える必要はありません。また、scipy.stats.linregressを使えばこの計算を全てやってくれます。

# 線形モデル
今の問題を一般化して，独立変数が$d$次元のデータセット $D=\{(\mathbf{x}^{(1)},y^{(1)}),\ldots,(\mathbf{x}^{(n)},y^{(n)})\}$ に

$$ y = a_1x_{1} + a_2x_{2} + \cdots + a_dx_d + a_0$$

を当てはめる問題を考えます。これは**線形モデル(linear model)**と呼ばれます。例えば、前回のボストンの家価格問題では

$$ \text{(価格)} = a\text{(部屋数)}+b $$

という単回帰モデルを考えましたが、「部屋数」以外に街毎の「犯罪発生率」の価格への影響も考慮したいとしましょう。この場合、線形モデルでは

$$ \text{(価格)} = a\text{(部屋数)}+b\text{(犯罪発生率)}+c $$

という回帰方程式を考える事になります。

多変数になると、$a_1,a_2,\ldots$と添字で書くよりもベクトル・行列を用いた方がシンプルになります。上の場合には

$$ \begin{aligned}
\mathbf{x} &= (x_1,x_2,\ldots,x_d) \\
\mathbf{a} &= (a_1,a_2,\ldots,a_d)
\end{aligned} $$

とおけば

$$ y= \mathbf{a}^T\mathbf{x} + a_0$$

と書くことが出来ます。もしくは，
$$ \begin{aligned}
\mathbf{x} &= (1, x_1,x_2,\ldots,x_d) \\
\mathbf{a} &= (a_0, a_1,a_2,\ldots,a_d)
\end{aligned} $$
とおけば

$$ y= \mathbf{a}^T\mathbf{x}$$

となります。この場合 $\mathbf{x}$ の第一成分は $1$ に固定されて変数ではなくなります。このようなものを**ダミー変数(dummy variable)**と呼びます。

## 線形モデルに対する最小二乗法

線形モデル

$$ y=\mathbf{a}^T\mathbf{x} $$

に対する最小二乗法の公式を導出しましょう。まず、データセット $D=\{(\mathbf{x}^{(1)},y^{(1)}),\ldots,(\mathbf{x}^{(n)},y^{(n)})\}$ に対する残差達からなるベクトルが

$$ \begin{pmatrix} \mathbf{a}^T\mathbf{x}^{(1)} -  y^{(1)}\\ \vdots \\ \mathbf{a}^T\mathbf{x}^{(n)} - y^{(n)}  \end{pmatrix}
= 
\begin{pmatrix}
a_1x^{(1)}_1 + \cdots + a_dx^{(1)}_d \\
\vdots \\
a_1x^{(n)}_1 + \cdots + a_dx^{(n)}_d \\
\end{pmatrix}
-
\begin{pmatrix} y^{(1)} \\ \vdots \\ y^{(n)} \end{pmatrix}
= 
\begin{pmatrix}
x^{(1)}_1 & \cdots & x^{(1)}_d \\
\vdots \\
x^{(n)}_1,& \cdots & x^{(n)}_d \\
\end{pmatrix}
\begin{pmatrix} a_1 \\ \vdots \\ a_d \end{pmatrix}
-
\begin{pmatrix} y^{(1)} \\ \vdots \\ y^{(n)} \end{pmatrix}
$$

と書ける事に注意しましょう。そこで

$$ \mathbf{y} \stackrel{\mathrm{def}}{=} \begin{pmatrix} y^{(1)} \\ \vdots \\ y^{(n)} \end{pmatrix}, \quad \mathbf{X} \stackrel{\mathrm{def}}{=} \begin{pmatrix}
x^{(1)}_1 & \cdots & x^{(1)}_d \\
\vdots \\
x^{(n)}_1,& \cdots & x^{(n)}_d \\
\end{pmatrix},\quad \mathbf{a} \stackrel{\mathrm{def}}{=} \begin{pmatrix} a_1 \\ \vdots \\ a_d \end{pmatrix}$$

と置けば、標本データに対する残差からなるベクトルは
$$ \mathbf{y} - \mathbf{X}\mathbf{a}$$
と書くことが出来ます。 $\mathbf{y}$ を**従属変数ベクトル(vector of dependent variables)**，$\mathbf{X}$を**計画行列(design matrix)**、$\mathbf{a}$を**パラメータベクトル(vector of parameters)**と呼びます。計画行列の各行が個々の標本データに対応し、各列が成分に対応しています。従属変数ベクトルの次元は $n$、計画行列の型は $n\times (d+1)$、パラメータベクトルの次元は $d+1$ となります。

さて、残差平方和はベクトル $\mathbf{y} - \mathbf{X}\mathbf{a}$ の成分の平方和なので

$$ \color{red}{ E = ||\mathbf{X}\mathbf{a}-\mathbf{y}||^2 }$$

と書くことが出来ます。 非常にシンプルな形で書くことが出来ました。

これを最大化する為に

$$ E = \frac{1}{2}||\mathbf{X}\mathbf{a}-\mathbf{y}||^2 $$

を $\mathbf{a}$ で微分すれば

$$ \frac{\partial E}{\partial\mathbf{a}} = \mathbf{X}^T(\mathbf{X}\mathbf{a}-\mathbf{y}) = \mathbf{0} $$

となります。従って，求める $\mathbf{a}$ は

$$ \color{red}{ \mathbf{X}^T\mathbf{X}\mathbf{a} = \mathbf{X}^T\mathbf{y} } $$

の解です。これを最小二乗法の問題に対する**正規方程式(normal equation)**と呼びます。まとめましょう。

----
【線形モデルに対する最小二乗法】

線形モデル

$$ y = \mathbf{a}^T\mathbf{x} $$

に対する残差平方和(の半分)は、従属変数ベクトル・計画行列・パラメータベクトルを用いて

$$ E = \frac{1}{2}||\mathbf{X}\mathbf{a}-\mathbf{y}||^2$$

と表すことが出来る。これを最小にする $\mathbf{a}$ は正規方程式

$$ \mathbf{X}^T\mathbf{X}\mathbf{a} = \mathbf{X}^T\mathbf{y} $$

の解である。

----

### 例
ボストンの家価格の問題に対して

$$ \text{(価格)} = a\text{(部屋数)}+b\text{(犯罪発生率)}+c $$

という線形モデルによる回帰を行ってみましょう。まず標本数と従属変数ベクトルは以下です。

In [1]:
from sklearn.datasets import load_boston
df = load_boston()
y = df.target
N = len(y)
print (u'データ数=',N)
print ('y=',y)

データ数= 506
y= [ 24.   21.6  34.7  33.4  36.2  28.7  22.9  27.1  16.5  18.9  15.   18.9
  21.7  20.4  18.2  19.9  23.1  17.5  20.2  18.2  13.6  19.6  15.2  14.5
  15.6  13.9  16.6  14.8  18.4  21.   12.7  14.5  13.2  13.1  13.5  18.9
  20.   21.   24.7  30.8  34.9  26.6  25.3  24.7  21.2  19.3  20.   16.6
  14.4  19.4  19.7  20.5  25.   23.4  18.9  35.4  24.7  31.6  23.3  19.6
  18.7  16.   22.2  25.   33.   23.5  19.4  22.   17.4  20.9  24.2  21.7
  22.8  23.4  24.1  21.4  20.   20.8  21.2  20.3  28.   23.9  24.8  22.9
  23.9  26.6  22.5  22.2  23.6  28.7  22.6  22.   22.9  25.   20.6  28.4
  21.4  38.7  43.8  33.2  27.5  26.5  18.6  19.3  20.1  19.5  19.5  20.4
  19.8  19.4  21.7  22.8  18.8  18.7  18.5  18.3  21.2  19.2  20.4  19.3
  22.   20.3  20.5  17.3  18.8  21.4  15.7  16.2  18.   14.3  19.2  19.6
  23.   18.4  15.6  18.1  17.4  17.1  13.3  17.8  14.   14.4  13.4  15.6
  11.8  13.8  15.6  14.6  17.8  15.4  21.5  19.6  15.3  19.4  17.   15.6
  13.1  41.3  24.3  23.3  27.   50.   

続いて、部屋数と犯罪発生率のデータは次のようになっており

In [2]:
room  = df.data[:, 5]
crime = df.data[:, 0]
print (u'部屋数=',room)
print (u'犯罪発生率=',crime)

部屋数= [ 6.575  6.421  7.185  6.998  7.147  6.43   6.012  6.172  5.631  6.004
  6.377  6.009  5.889  5.949  6.096  5.834  5.935  5.99   5.456  5.727
  5.57   5.965  6.142  5.813  5.924  5.599  5.813  6.047  6.495  6.674
  5.713  6.072  5.95   5.701  6.096  5.933  5.841  5.85   5.966  6.595
  7.024  6.77   6.169  6.211  6.069  5.682  5.786  6.03   5.399  5.602
  5.963  6.115  6.511  5.998  5.888  7.249  6.383  6.816  6.145  5.927
  5.741  5.966  6.456  6.762  7.104  6.29   5.787  5.878  5.594  5.885
  6.417  5.961  6.065  6.245  6.273  6.286  6.279  6.14   6.232  5.874
  6.727  6.619  6.302  6.167  6.389  6.63   6.015  6.121  7.007  7.079
  6.417  6.405  6.442  6.211  6.249  6.625  6.163  8.069  7.82   7.416
  6.727  6.781  6.405  6.137  6.167  5.851  5.836  6.127  6.474  6.229
  6.195  6.715  5.913  6.092  6.254  5.928  6.176  6.021  5.872  5.731
  5.87   6.004  5.961  5.856  5.879  5.986  5.613  5.693  6.431  5.637
  6.458  6.326  6.372  5.822  5.757  6.335  5.942  6.454  5.857  6.151
 

これにダミー変数を1つ追加して $\text{(データ数)}\times 3$ にまとめた物が計画行列です。

In [3]:
X = array([room, crime, ones(N)]).T
print (u'計画行列')
print (X)

計画行列
[[  6.57500000e+00   6.32000000e-03   1.00000000e+00]
 [  6.42100000e+00   2.73100000e-02   1.00000000e+00]
 [  7.18500000e+00   2.72900000e-02   1.00000000e+00]
 ..., 
 [  6.97600000e+00   6.07600000e-02   1.00000000e+00]
 [  6.79400000e+00   1.09590000e-01   1.00000000e+00]
 [  6.03000000e+00   4.74100000e-02   1.00000000e+00]]


正規方程式 

$$ \mathbf{X}^T\mathbf{X}\mathbf{a}=\mathbf{X}^T\mathbf{y}$$

を解くためにはnumpy.linalg.solveを使う事が出来ます。

In [4]:
a = linalg.solve( X.T.dot(X), X.T.dot(y) )
print (a)

[  8.3975317   -0.2618229  -29.30168135]


これから、

$$ \text{(ボストンの家の価格)} \approx 8.4\text{(部屋数)} - 0.26\text{(犯罪発生率)} - 29.3 $$

という回帰方程式を得る事が出来ました。部屋数が増えると価格が上がり、犯罪発生率が上がると価格が下がるという予想通りの結果が得られました。この方程式がどの程度良いものかを評価する方法については次の回に説明します。

statsmodelsというライブラリは計画行列と従属変数ベクトルを渡せば以上の計算を行ってくれます。後の回に説明する評価値の計算も行ってくれる為大変便利です。

In [5]:
from statsmodels.api import OLS
ols = OLS(endog = y, exog = X) # 従属変数ベクトルと計画行列
result = ols.fit() # 回帰を実行
result.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.541
Model:,OLS,Adj. R-squared:,0.539
Method:,Least Squares,F-statistic:,295.9
Date:,"Mon, 26 Jan 2015",Prob (F-statistic):,1.15e-85
Time:,21:57:33,Log-Likelihood:,-1643.5
No. Observations:,506,AIC:,3293.0
Df Residuals:,503,BIC:,3306.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5
,coef,std err,t,P>|t|,[95.0% Conf. Int.]
x1,8.3975,0.406,20.706,0.000,7.601 9.194
x2,-0.2618,0.033,-7.899,0.000,-0.327 -0.197
const,-29.3017,2.592,-11.303,0.000,-34.395 -24.208

0,1,2,3
Omnibus:,170.471,Durbin-Watson:,0.805
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1034.461
Skew:,1.331,Prob(JB):,2.3399999999999998e-225
Kurtosis:,9.479,Cond. No.,92.2


各種評価値の説明は別の回にまとめて説明する予定です。

# 基底変換
これまでは

$$ y = a_1x_{1} + a_2x_{2} + \cdots + a_dx_d + a_0$$

という一次式を考えましたが、$d$次元のオリジナルの変数 $\mathbf{x}$ を使う変わりに、これらを $d'$ 次元の変数 $\mathbf{x}'$ に変換してから線形モデルを適用するという一般化を考える事が出来ます。

$$ y = a_1x'_{1} + a_2x'_{2} + \cdots + a_{d'}x'_{d'} + a_0$$

ここで、この変換を行う関数を

$$ \mathbf{x}' = \boldsymbol{\psi}(\mathbf{x})$$

と書くと、ダミー変数も用いて

$$ y = \mathbf{a}^T\boldsymbol{\psi}(\mathbf{x}) $$

と書くことが出来ます。このような変換を**基底変換(base conversion)**と呼びます。

基底変換後のデータに対する計画行列を用いれば、最小二乗法を全く同様に実行する事が出来ます。

$$ \mathbf{X} = \begin{pmatrix}
\psi_1(\mathbf{x}_1) & \psi_2(\mathbf{x}_1) & \cdots & \psi_{d'}(\mathbf{x}_1) \\
\psi_1(\mathbf{x}_2) & \psi_2(\mathbf{x}_2) & \cdots & \psi_{d'}(\mathbf{x}_2) \\
\vdots & \vdots & \ddots & \vdots \\
\psi_1(\mathbf{x}_n) & \psi_2(\mathbf{x}_n) & \cdots & \psi_{d'}(\mathbf{x}_n) \\
\end{pmatrix} $$

以下ではボストンの家の価格に対して

$$ \text{(価格)} = a\text{(部屋数)}^2 + b\text{(部屋数)} + c$$

というモデルを当てはめる例です。

import sklearn
from sklearn.datasets import load_boston
import scipy.stats as stats

df = load_boston()
x = df.data[:, 5]
y = df.target
def design_matrix(x):
    return array([x**2, x, ones(len(x))]).T

X = design_matrix(x)
a = linalg.solve( X.T.dot(X), X.T.dot(y))

scatter(df.data[:, 5], df.target)
xx = linspace(3, 10)
plot(xx, design_matrix(xx).dot(a), color='red')
title('Boston_House_Price')
xlabel(df.feature_names[5])
ylabel('Price')
show()

### 宿題
ボストンの家の価格に対して部屋数と犯罪発生率の二次のモデルを当てはめて下さい。

$$ \text{(価格)} = a\text{(部屋数)}^2 + b\text{(部屋数)(犯罪発生率)} + c\text{(犯罪発生率)}^2 + d\text{(部屋数)} + e\text{(犯罪発生率)} + f$$