# 回帰分析

解けない連立方程式の近似解法を用いて重回帰分析の問題を解いてみましょう．

ある企業の10支店について，売上高と従業員数及びエリア人口を調査しました．

| 売上（百万円） | 従業員数（名） | エリア人口（千名） |
| :---:| :---:| :---:|
| 2087 | 288 | 2199 |
| 1899 | 236 | 2844 |
| 1449 | 198 | 1579 |
| 1287 | 210 |  248 |
| 1112 | 101 |  576 |
| 1011 | 123 |  330 |
|  721 |  51 |   95 |
|  456 |  56 |  201 |
|  430 |  49 |   93 |
|  347 |  78 |   90 |

このデータに基づいて従業員数とエリア人口を説明変数として，売上を目的変数とする予測する重回帰式を求める問題です．

### 回帰式モデル

求める回帰式は次式になります．

> $ \text{[売上]} = a{\times}\text{[従業員数]} + b{\times}\text{[エリア人口]} + c $

### 連立方程式の構成

回帰式モデルに合わせて連立方程式を作成すると，次のようになります．

$\left\{\begin{array}{l}
288a + 2199b + c = 2087 \\
236a + 2844b + c = 1899 \\
198a + 1579b + c = 1449 \\
210a + 248b + c = 1287 \\
101a + 576b + c = 1112 \\
123a + 330b + c = 1011 \\
51a + 95b + c = 721 \\
56a + 201b + c = 456 \\
49a + 93b + c = 430 \\
78a + 90b + c = 347 \\
\end{array}\right.$

この連立方程式を行列で表現すると次のようになります．

${\bf Ax} =
\left(\begin{array}{c}
288 & 2199 & 1 \\
236 & 2844 & 1 \\
198 & 1579 & 1 \\
210 &  248 & 1 \\
101 &  576 & 1 \\
123 &  330 & 1 \\
 51 &   95 & 1 \\
 56 &  201 & 1 \\
 49 &   93 & 1 \\
 78 &   90 & 1 \\
\end{array}\right)
\left(\begin{array}{c} a \\ b \\ c \\ \end{array}\right)
=
\left(\begin{array}{c}
2087 \\
1899 \\
1449 \\
1287 \\
1112 \\
1011 \\
 721 \\
 456 \\
 430 \\
 347 \\
\end{array}\right) 
=
{\bf b}$

### Pythonの射影による近似解法

まず，NumPyライブラリーをインポートします．

In [1]:
import numpy as np

行列$\bf A$および定数ベクトル$\bf b$を変数として定義します．

In [2]:
A = np.array([
    [288, 2199, 1],
    [236, 2844, 1],
    [198, 1579, 1],
    [210,  248, 1],
    [101,  576, 1],
    [123,  330, 1],
    [ 51,   95, 1],
    [ 56,  201, 1],
    [ 49,   93, 1],
    [ 78,   90, 1]])
A

array([[ 288, 2199,    1],
       [ 236, 2844,    1],
       [ 198, 1579,    1],
       [ 210,  248,    1],
       [ 101,  576,    1],
       [ 123,  330,    1],
       [  51,   95,    1],
       [  56,  201,    1],
       [  49,   93,    1],
       [  78,   90,    1]])

In [4]:
b = np.array([2087, 1899, 1449, 1287, 1112, 1011, 721, 456, 430, 347])
b

array([2087, 1899, 1449, 1287, 1112, 1011,  721,  456,  430,  347])

行列$\bf A$のランクを調べます．

In [5]:
np.linalg.matrix_rank(A)

3

$\text{Rank}{\bf A} = 3$なので，行列$\bf A$の列ベクトルは線形独立です．

それでは一気に近似解を求める行列を生成します．

> Solve = np.linalg.inv(A.T.dot(A)).dot(A.T)

In [6]:
Solve = np.linalg.inv(A.T.dot(A)).dot(A.T)
Solve

array([[  2.31068466e-03,  -2.03251667e-03,   2.55543627e-04,
          4.97646373e-03,  -9.06347811e-04,   8.46590841e-04,
         -1.61853677e-03,  -1.72945104e-03,  -1.70125535e-03,
         -4.01175212e-04],
       [ -1.35562821e-05,   3.63755399e-04,   6.40988247e-05,
         -4.14711127e-04,   3.68562790e-05,  -1.13866656e-04,
          3.47467006e-05,   5.41443588e-05,   4.03752486e-05,
         -5.18427463e-05],
       [ -2.09994456e-01,   8.22397357e-02,   1.15658560e-02,
         -2.49384424e-01,   1.95557487e-01,   7.63207977e-02,
          2.96293210e-01,   2.95697527e-01,   3.03144725e-01,
          1.98559542e-01]])

この行列を定数ベクトル$\bf b$に作用させて，行列方程式${\bf Ax}={\bf b}$の最小近似解を求めます．

> x = Solve.dot(b)

In [7]:
x = Solve.dot(b)
x

array([  4.75934354e+00,   1.96604635e-01,   2.56054121e+02])

この値を回帰式モデルに代入して，回帰式が求まりました．

> $ \text{[売上]} = 4.76{\times}\text{[従業員数]} + 0.197{\times}\text{[エリア人口]} + 256 $

また，回帰式を用いた予測値は次にようになります．

In [8]:
A.dot(x)

array([ 2059.07865436,  1938.40278007,  1508.84286171,  1304.27421446,
         849.9920889 ,   906.33290649,   517.45808222,   562.09489128,
         507.54618586,   644.97733465])

このように，重回帰分析の回帰式は線形代数の行列演算だけで求めることが出来ました．

これにより，回帰分析の原理を理解できました．

*****
## 線形代数による近似解法と統計による回帰分析との違い

線形代数の本質的な議論から重回帰分析の回帰式を求めることができました．
一般的に回帰分析は，統計の一分野として位置付けれれています．
それでは，統計としての回帰分析と線形代数における解法との違いについて説明します．

回帰分析の全体像は下図のようになります．

![回帰分析の全体像](./images/regression_theory.jpg)

私達が線形代数で学んだ回帰式を求める方法は，理論的本質を説明しています．
したがって，線形代数の射影は回帰分析の理論的骨格となります．
しかし，そこには求めた回帰式による予測値がどのくらい的を得ているのか不明です．

そこで推測統計の方法によって，解の妥当性を評価判定する覆いを被せたものが回帰分析と言われています．
たとえば，上の例題の場合にある別の支点の売り上げ予想が1億円としたとき，1億円±0.1億円以内になる確率はどれくらいかを判定します．

長い歴史がある回帰分析ですが，機械学習のフレームでも利用されるようになっています．
Pythonでは，<font color=blue>scikit-learn</font>のlinear_model.LinearRegression()が利用されることが多いようです．
多変量解析におけるモデル精度は確率分布の適用によって行いますが，
機械学習におけるモデル精度の概念はテストデータによる検証によって行われます．


*****
### scikit-learnによる回帰式

参考までに，scikit-learnによる回帰式の係数を求める方法を紹介します．
ただし，scikit-learnは線形代数の範囲を越えていますので，単なる参照にとどめておきます．

In [9]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit (A[:,:2],b)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [10]:
reg.coef_

array([ 4.75934354,  0.19660464])

In [11]:
reg.intercept_

256.05412125826695

射影ベクトルの解法と同じ結果を得ることができました．
こちらは，パッケージ化されているので簡単に使用することができます．
ただし，使用方法だけを覚えると，ツールに使われる人になってしまうので注意しましょう．

なお，射影ベクトルの解法においいて，行列$\bf A$の3列目に全ての値が1の列を設定しましたが，sklearn.linear_model.LinearRegression()においては不要となります．
そのため，その列を削除したものがA[:,:2]です．
*****