# 重回帰分析 (Linear Regression with Multiple Variables)

単回帰分析は、1つのアウトプットYYを1つのインプットXXから予測する手法でした。重回帰分析は、XXが1つのベクトル (vector)ではなく、複数のベクトルの集まり、マトリックス (matrix)になっただけです。


## 仮定関数 (Hypothesis function)

$h_\theta(x) = \theta_{0}x_0 + \theta_{1}x_1 + \theta_{2}x_2 + \cdots + \theta_{n}x_n$

ここで$x_0 = 1$とします（定数項）  

このn項の計算を簡単にするために、$\theta$と$x$を行列にします。

$
  X = \left[
    \begin{array}{r}
      x_0 \\
      x_1 \\
      \vdots \\
      x_n \\
    \end{array}
  \right]
$
$
  \Theta = \left[
    \begin{array}{r}
      \theta_0 \\
      \theta_1 \\
      \vdots \\
      \theta_n \\
    \end{array}
  \right]
$

$\Theta$を転置に取ります

$
  \Theta = \left[
    \begin{array}{r}
      \theta_0 & \theta_1 & \cdots & \theta_n\\
    \end{array}
  \right]
$

この$\Theta^T$に$X$を掛けると$h_\theta(x)$となります。

$h_\theta(x) = \Theta^T X$

## 目的関数 (Cost Function)

$
\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta_j) \\
\theta_j - \alpha\displaystyle{\sum_{i=1}^{m}}(h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)}_j \\ 
$


In [1]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_boston
%matplotlib inline

# データセットを読み込み
boston = load_boston()
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
# 価格のデータを追加
boston_df['PRICE'] = boston.target
# 先頭を表示
boston_df.head()


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


## 最急降下法 (Gradient Descent)



## スケーリング (feature scaling)

もし説明変数の範囲が互いに異なる範囲に分布している場合、  目的関数J(θ)J(θ)が非対称的な形になり、最急降下法で最小値にたどり着くまでに時間がかかります。
スケーリングによって、目的関数J(θ)J(θ)が対称的な形となり、最急降下法で最小値までたどり着く時間が短くなります。  
スケーリングをして、全ての説明変数の値の範囲を、おおよそ−1≤xi≤1−1≤xi≤1にした方がより早く局所的最適解に近づきます。

$x_i=\frac{x_i−\overline{x}}{\sigma(x)}$

あるいは、

$x_i=\frac{x_i−\overline{x}}{max(x)−min(x)}$

とすれば、値の範囲をおおよそ-1から1にすることができます。$\overline{x}はベクトル$X$の平均値、  
$\sigma(x)$は$X$の標準偏差、$max(x)$、$min(x)$は、それぞれ最大値と最小値を表します。


## 正規方程式 (Normal Equation)

最急降下法以外に、目的関数の最小値を求める方法として、正規方程式があります。
 
$\theta = (X^T X)^{-1} X^T y$

これを解くと、目的関数が最小となる$\theta$が得られます。

### 最急降下法と正規方程式の比較

最急降下法
* 学習率$\alpha$を選ぶ必要がある。
* たくさんの繰り返しによって解にたどり着く。
* 説明変数の数が多くても (n = 1,000,000程度以上)上手く動く。
* より複雑なモデルの場合でも、うまく動作する。

正規方程式
* 学習率$\alpha$が不要
* 直接解が求められる。
* $X$のサイズが大きい場合、計算に時間がかかる 
* より複雑なモデルの場合、うまく動かない
