# 総合演習問題 - 2

次のデータは，ある果物の糖度に対する試薬の効果を測定したものです．
各行はそれぞれの条件で育成した各グループごとの平均値です．

このデータを元にして，日照時間，平均気温，試薬量を説明変数として糖度を目的変数とする回帰直線の式を求めよ．

| 糖度 | 日照時間 | 平均気温 | 試薬量 |
| :---:|:---:| :---:| :---:|
| 19.0 | 199 | 28.1 | 1.44 |
| 17.9 | 206 | 18.0 | 1.32 |
| 19.6 | 196 | 24.8 | 1.24 |
| 16.1 | 163 | 19.7 | 1.47 |
| 12.7 | 146 | 24.9 | 1.39 |
| 14.4 | 158 | 18.4 | 1.43 |
| 16.0 | 140 | 21.2 | 1.49 |
| 21.9 | 210 | 26.0 | 1.47 |
| 13.8 | 165 | 25.8 | 1.22 |
| 19.0 | 217 | 17.5 | 1.35 |

ただし，糖度を（日照時間，平均温度，試薬量）より構成されるベクトル空間へ射影作用素を求めることを使って，Pythonで求めよ．  
回帰直線の式は，

> $[糖度] = 係数_1[日照時間] + 係数_2[平均温度] + 係数_3[試薬量] + 定数項$

です．

#### ヒント

定数項も考慮して，回帰式の係数となる変数を $x_1$：日照時間，$x_2$：平均温度，$x_3$：試薬量，$x_4$：定数項，として，
${\bf x} =
\left(\begin{array}{c}
x_1 \\ x_2 \\ x_3 \\ x_4 \\
\end{array}\right)$
とします．  
すると，これに対応する説明変数からなる係数行列$\bf A$および，目的変数を$\bf b$として，行列方程式${\bf Ax}={\bf b}$を定義します．  
このとき，ベクトル$\bf b$を係数行列$\bf A$の列ベクトル空間へ射影したときの係数は，

> ${\bf x} = ({\bf A}^\mathsf{T}{\bf A})^{-1}{\bf A}^\mathsf{T}{\bf b}$

となります．

Pythonでデータ入力が必要になりますので，下記の記述をコピーしてご使用ください．

```Python
A = np.array([
    [ 199, 28.1, 1.44, 1 ],
    [ 206, 18.0, 1.32, 1 ],
    [ 196, 24.8, 1.24, 1 ],
    [ 163, 19.7, 1.47, 1 ],
    [ 146, 24.9, 1.39, 1 ],
    [ 158, 18.4, 1.43, 1 ],
    [ 140, 21.2, 1.49, 1 ],
    [ 210, 26.0, 1.47, 1 ],
    [ 165, 25.8, 1.22, 1 ],
    [ 217, 17.5, 1.35, 1 ]])

b = np.array([19.0,17.9,19.6,16.1,12.7,14.4,16.0,21.9,13.8,19.0])
```

*****
## 解答

まず最初にNumPyライブラリーをインポートします．

```Python
import numpy as np
```

方程式${\bf Ax}={\bf b}$の係数行列$\bf A$と定数ベクトル$\bf b$を定義します．

```Python
A = np.array([
    [ 199, 28.1, 1.44, 1 ],
    [ 206, 18.0, 1.32, 1 ],
    [ 196, 24.8, 1.24, 1 ],
    [ 163, 19.7, 1.47, 1 ],
    [ 146, 24.9, 1.39, 1 ],
    [ 158, 18.4, 1.43, 1 ],
    [ 140, 21.2, 1.49, 1 ],
    [ 210, 26.0, 1.47, 1 ],
    [ 165, 25.8, 1.22, 1 ],
    [ 217, 17.5, 1.35, 1 ]])
A
```

定数ベクトル${\bf b}$を定義します．

```Python
b = np.array([19.0,17.9,19.6,16.1,12.7,14.4,16.0,21.9,13.8,19.0])
b
```

係数行列のランクを調べます．
各列ベクトルが線形独立であれば，$\text{Rank}({\bf A})=4$ となります．

```Python
np.linalg.matrix_rank(A)
```

これにより，${\bf A}^\mathsf{T}{\bf A}$のランクも4となるので，この逆行列が存在します．
したがって，行列$\bf A$の列ベクトル空間への射影ベクトルの係数を求める作用素は，

> $({\bf A}^\mathsf{T}{\bf A})^{-1}{\bf A}^\mathsf{T}$

となります．Pythonでは，次の命令になります．

> numpy.linalg.inv(A.T.dot(A)).dot(A.T)

```Python
Solve = np.linalg.inv(A.T.dot(A)).dot(A.T)
Solve
```

この作用素を目的変数であるベクトル$\bf b$に作用させれば，回帰式の係数$\bf x$が求まります．

```Python
x = Solve.dot(b)
x
```

さらに，目的変数$\bf b$を行列$\bf A$の列ベクトル空間に射影した値は次のようになります．

```Python
A.dot(x)
```

以上で，線形代数の射影による回帰式が求まりました．

模範解答はここまでとしますが，おまけでscikit-learnによる解法も掲載します．

*****
## scikit-learnによる解法

機械学習ライブラリーであるscikit-learnの線形回帰分析用モジュールである<font color=blue>linear_model</font>による解法について説明します．

まず，モジュールをインポートして，線形回帰モデルのオブジェクトを作成します．
そして，そのオブジェクトにデータを引き渡すことにより回帰分析を実施します．

```Python
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit (A[:,:3],b)
```

線形回帰モデルが構築されました． この線形回帰モデルの係数は reg.coef\_ という変数に保管されています．

```Python
reg.coef_
```

回帰直線の y切片は reg.intercept\_ という変数に保管されています．

```Python
reg.intercept_
```

生成された線形回帰モデルを用いて予測を行う場合は，reg.predict()メソッドを利用します．  
ここでは，元のデータの説明変数を引数として予測を行ってみます．

```Python
reg.predict(A[:,:3])
```

以上でscikit-learnによる解法の説明を終わります．
*****