# 重回帰分析 (Linear Regression with Multiple Variables)

単回帰分析は、1つのアウトプットYYを1つのインプットXXから予測する手法でした。重回帰分析は、XXが1つのベクトル (vector)ではなく、複数のベクトルの集まり、マトリックス (matrix)になっただけです。


## 仮定関数 (Hypothesis function)

$h_\theta(x) = \theta_{0}x_0 + \theta_{1}x_1 + \theta_{2}x_2 + \cdots + \theta_{n}x_n$

ここで$x_0 = 1$とします（定数項）  

このn項の計算を簡単にするために、$\theta$と$x$を行列にします。

$
  X = \left[
    \begin{array}{r}
      x_0 \\
      x_1 \\
      \vdots \\
      x_n \\
    \end{array}
  \right]
$
$
  \Theta = \left[
    \begin{array}{r}
      \theta_0 \\
      \theta_1 \\
      \vdots \\
      \theta_n \\
    \end{array}
  \right]
$

$\Theta$を転置に取ります

$
  \Theta = \left[
    \begin{array}{r}
      \theta_0 & \theta_1 & \cdots & \theta_n\\
    \end{array}
  \right]
$

この$\Theta^T$に$X$を掛けると$h_\theta(x)$となります。

$h_\theta(x) = \Theta^T X$

## 目的関数 (Cost Function)

　このとき、x(i)x(i)は、ii番目のインプットデータ (i=2i=2なら、x(2)x(2)はテスト番号2のときの各教科の点数)、y(i)y(i)は、そのときの志望校の合格可能性 (= 30 [%])を表します。

　例によって、選んだパラメーターθθを用いて計算した予測値hθ(x)hθ(x)と、実際の値yyがどれだけずれているのか、二乗差をとって足し合わせ、平均を取っているだけですね。2で割っているのは、最小値を求めるために微分する際、∑∑の中から来る2と相殺されるようにつけてあります。
 


In [18]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_boston
%matplotlib inline

# データセットを読み込み
boston = load_boston()
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
# 価格のデータを追加
boston_df['PRICE'] = boston.target
# 先頭を表示
boston_df.head()


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


## 最急降下法 (Gradient Descent)



## スケーリング (feature scaling)

説明変数のマトリックスXXは、今回の例では教科の得点なので、どれも同じ範囲 (0 - 100)に収まっています。しかし、もし説明変数の範囲が互いにバラバラだったならば、スケーリング (feature scaling)をして、全ての説明変数の値の範囲を、おおよそ−1≤xi≤1−1≤xi≤1にする必要があります。
xi=xi−mean(x)SD(x)
xi=xi−mean(x)SD(x)

あるいは、
xi=xi−mean(x)max(x)−min(x)
xi=xi−mean(x)max(x)−min(x)

とすれば、値の範囲をおおよそ-1から1にすることができます。mean(x)mean(x)はベクトルxxの平均値、SD(x)SD(x)はxxの標準偏差、max(x)max(x)、min(x)min(x)は、それぞれ最大値と最小値を表します。

　スケーリングの利点
　θθ同士の範囲に差があると、目的関数J(θ)J(θ)が非対称的な形になり、最急降下法で最小値にたどり着くまでに時間がかかります。スケーリングによって、目的関数J(θ)J(θ)が対称的な形となり、最急降下法で最小値までたどり着く時間が短くなります。
 


## 正規方程式 (Normal Equation)

　最急降下法以外に、目的関数J(θ)J(θ)の最小値を求める方法として、正規方程式 (normal equation)を解く方法があります。
θ=(XTX)−1XTy
θ=(XTX)−1XTy

　これを解くと、一発で目的関数J(θ)J(θ)が最小となるθθを求めることができます。

　正規方程式があれば最急降下法なんていらないじゃん？

　と思うのが当然だと思います。

　ただ、最急降下法 (Gradient Descent)にもメリットがあり、正規方程式 (Normal Equation)にもデメリットはあります。

最急降下法
    学習率ααを選ぶ必要がある 　
    たくさんの繰り返しによって解にたどり着く 　
    説明変数の数が多くても (n = 1,000,000程度)上手く動く 

正規方程式
    学習率ααを選ばなくてよい 　
    直接解が求められる 　
    Xのサイズが大きい場合、計算に時間がかかる 

　なので、説明変数の数が100万を超えるような場合でなければ、正規方程式を使えばよいのですね。

pinv(X'*X)*X'*y

　Matlab / Octaveであれば、上記のコマンドで正規方程式を解くことができます。