# 回帰分析

解けない連立方程式の近似解法を用いて重回帰分析の問題を解いてみましょう．

ある企業の10支店について，売上高と従業員数及びエリア人口を調査しました．

| 売上（百万円） | 従業員数（名） | エリア人口（千名） |
| :---:| :---:| :---:|
| 2087 | 288 | 2199 |
| 1899 | 236 | 2844 |
| 1449 | 198 | 1579 |
| 1287 | 210 |  248 |
| 1112 | 101 |  576 |
| 1011 | 123 |  330 |
|  721 |  51 |   95 |
|  456 |  56 |  201 |
|  430 |  49 |   93 |
|  347 |  78 |   90 |

このデータに基づいて従業員数とエリア人口を説明変数として，売上を目的変数とする予測する重回帰式を求める問題です．

### 回帰式モデル

求める回帰式は次式になります．

> $ \text{[売上]} = a{\times}\text{[従業員数]} + b{\times}\text{[エリア人口]} + c $

### 連立方程式の構成

回帰式モデルに合わせて連立方程式を作成すると，次のようになります．

$$\left\{\begin{array}{l}
288a + 2199b + c = 2087 \\
236a + 2844b + c = 1899 \\
198a + 1579b + c = 1449 \\
210a + 248b + c = 1287 \\
101a + 576b + c = 1112 \\
123a + 330b + c = 1011 \\
51a + 95b + c = 721 \\
56a + 201b + c = 456 \\
49a + 93b + c = 430 \\
78a + 90b + c = 347 \\
\end{array}\right.$$

この連立方程式を行列で表現すると次のようになります．

$${\bf Ax} =
\left(\begin{array}{c}
288 & 2199 & 1 \\
236 & 2844 & 1 \\
198 & 1579 & 1 \\
210 &  248 & 1 \\
101 &  576 & 1 \\
123 &  330 & 1 \\
 51 &   95 & 1 \\
 56 &  201 & 1 \\
 49 &   93 & 1 \\
 78 &   90 & 1 \\
\end{array}\right)
\left(\begin{array}{c} a \\ b \\ c \\ \end{array}\right)
=
\left(\begin{array}{c}
2087 \\
1899 \\
1449 \\
1287 \\
1112 \\
1011 \\
 721 \\
 456 \\
 430 \\
 347 \\
\end{array}\right) 
=
{\bf b}$$

### ベクトルの射影による近似解

ベクトルの射影による近似解$\bf x$は次の式で得られました．

> ${\bf x} = ({\bf A}^\mathsf{T}{\bf A})^{-1}{\bf A}^\mathsf{T}{\bf b}$

この式をPythonで計算して，近似解を求めます．

*****
## Pythonの射影による近似解法

まず，NumPyライブラリーをインポートします．

```Python
import numpy as np
```

行列$\bf A$を変数として定義します．

```Python
A = np.array([
    [288, 2199, 1],
    [236, 2844, 1],
    [198, 1579, 1],
    [210,  248, 1],
    [101,  576, 1],
    [123,  330, 1],
    [ 51,   95, 1],
    [ 56,  201, 1],
    [ 49,   93, 1],
    [ 78,   90, 1]])
A
```

定数ベクトル$\bf b$を変数として定義します．

```Python
b = np.array([2087, 1899, 1449, 1287, 1112, 1011, 721, 456, 430, 347])
b
```

行列$\bf A$のランクを調べます．

```Python
np.linalg.matrix_rank(A)
```

$\text{Rank}{\bf A} = 3$ならば，行列$\bf A$の列ベクトルは線形独立です．

それでは近似解を求める行列
$({\bf A}^{\mathsf T}{\bf A})^{-1}{\bf A}^{\mathsf T}$
を一気に生成します．

```Python
Solve = np.linalg.inv(A.T.dot(A)).dot(A.T)
Solve
```

この行列を定数ベクトル$\bf b$に作用させて，行列方程式${\bf Ax}={\bf b}$の最小近似解を求めます．

```Python
x = Solve.dot(b)
x
```

この値を回帰式モデルに代入して，回帰式が求まりました．

> $ \text{[売上]} = 4.76{\times}\text{[従業員数]} + 0.197{\times}\text{[エリア人口]} + 256 $

また，回帰式を用いた予測値は次にようになります．

```Python
A.dot(x)
```

このように，重回帰分析の回帰式は線形代数の行列演算だけで求めることが出来ました．

これにより，回帰分析の原理を理解できました．

*****
## scikit-learnによる回帰式

scikit-learnによる回帰式の係数を求める方法を紹介します．
ただし，scikit-learnは線形代数の範囲を越えていますので，単なる参考に留めておきます．

私たちがレクチャーで学習してきた回帰分析とは，正確には**線形回帰分析**です．
Pythonの機械学習ライブラリーである<font color=blue>scikit-learn</font>には，
線形回帰分析用に <font color=green>linear_model</font> というモジュールがあります．
このモジュールをインポートして，線形回帰分析用のオブジェクトを生成します．

> 
<font color=green>from</font> sklearn <font color=green>import</font> linear_model  
reg = linear_model.LinearRegression()  
reg.fit (*explanatory_variables*,*objective_variable*)


ここで説明変数 (explanatory_variables) は既に定義してある変数 $\bf A$ から3列目を除いた行列になります．
これは，A[:,:2] と記述することによって得られます．

また，目的変数 (objective_variable) は，変数 $\bf b$ そのものとなります．
よって，実際のプログラムは次の通りとなります．

```Python
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit (A[:,:2],b)
```

これにより，線形回帰モデルが構築されました．
この線形回帰モデルの係数は reg.coef\_ という変数に保管されています．

```Python
reg.coef_
```

また，回帰直線の y切片は reg.intercept\_ という変数に保管されています．

```Python
reg.intercept_
```

これらの係数とy切片が，射影ベクトルによる解法と同じ結果になっていることを確認してください．

生成された線形回帰モデルを用いて予測を行う場合は，reg.predict()メソッドを利用します．  
ここでは，元のデータの説明変数を引数として予測を行ってみます．

```Python
reg.predict(A[:,:2])
```

この結果が元の目的変数の値の近似値になっていることを確認してくっださい．
また，引数に説明変数の新たな値を与えれば，その目的変数の値が予測値として計算されます． 

scikit-learnのモジュールを利用すると，線形回帰モデルの生成がこれだけで済んでしまいます． 
scikit-learnは，パッケージ化されているので簡単に使用することができます．  
ただし，使用方法だけを覚えると，ツールに使われるだけの人になってしまうので注意しましょう．

*****