線形回帰
====================
--------------------------------------------

ここでは、以下のような、重みw×説明変数xの項を足し合わせた

$y=w_{0}+w_{1}x_{1}+w_{2}x_{2}\ldots$

の形で連続変数yを目的変数として予測するモデルについて取り扱う。これを線形回帰(Linear Regression)と呼ぶ。

説明のため、以下のように書き換える。

$f(x)=W^T\phi(x)$

予測するためには、この$W$を推定する必要がある。推定することで予測式を作る(パラメータを求める)のが回帰式のモデリングである。

$W$はM次ベクトルで、説明変数に対する重みである。なお、Mは説明変数の数である（回帰式に定数を含む場合、説明変数の数+1）。

$
  W=\left(
  \begin{array}{ccc}
  w_{1} \\
  w_{2} \\
  \vdots \\
  w_{M}
  \end{array}
  \right)
$

$W$は解析的に以下のように求めることができる。これは最小二乗問題の正規方程式として知られる。

$W=(\Phi^T\Phi)^{-1}\Phi^Tt$

$\Phi$はN×M次元の行列で、Nはケース（レコード）の数である。

$
  \Phi=\left(
  \begin{array}{ccc}
  1 & x_{11} & x_{12} & \ldots & x_{1M} \\
  1 & x_{21} & x_{22} & \ldots & x_{1M} \\
  \vdots & \vdots & \vdots & \ddots & \vdots \\
  1 & x_{N1} & x_{N2} & \ldots & x_{NM}
  \end{array}
  \right)
$

$t$は学習データの目的変数である。

$t=\left(
\begin{array}{ccc}
t_{1} \\
t_{2} \\
\vdots \\
t_{N} \\
\end{array}
\right)
$

このように、重みを学習データの説明変数と学習データの目的変数から推定している事がわかる。

##単回帰

In [None]:
%matplotlib inline
import numpy
import matplotlib.pyplot
import pandas

読み込むデータは以下のとおりである。

このデータから$\mathrm{Salary} = w_0+w_1 \times \mathrm{Years}$の式（のw）を推定する。

In [None]:
t = numpy.array([213000,192000,199000,241000,175000,220000,208000,184000,203000,245000,188000,216000,200000,173000,187000,191000,219000,189000,236000,179000])
X1 = numpy.array([8,5,7,13,2,10,4,3,7,12,6,10,6,1,3,3,9,2,11,1])
df = pandas.DataFrame({
        'Salary' : t,
        'Years' : X1
        })
df.ix[ range(0,5), :]

データを可視化すると以下のようになる。誤差はあるにせよ、一本の直線を描けることがわかる。
その直線を描くためのパラメータを求める必要がある。

In [None]:
matplotlib.pyplot.xlabel('Years')
matplotlib.pyplot.ylabel('Salary')
matplotlib.pyplot.plot(X1, t, 'o')

ここで、Yearから$\Phi$を算出するために以下の関数を定義する。

In [None]:
def phi(x):
    return [1, x]
PHI = numpy.array([phi(x) for x in X1])
PHI

この時 return [1, x] を return [1, x, x\*\*2] に変更するとどうなるだろうか。

$W=(\Phi^T\Phi)^{-1}\Phi^Tt$をnumpyで記述する。

行列AとBの積をとるには dot(A, B)、Aの転地をとるには A.T、Aの逆行列をとるにはinv(A)を使用する。
また、$A^{-1}B$を計算するのにinvにより逆行列をとって計算してもよいが、solveを使用する。

以上より式は以下のように整理できる。

$W = \mathrm{solve}(\mathrm{dot}(\Phi.\mathrm{T}, \Phi), \mathrm{dot}(\Phi.\mathrm{T}, t))$



In [None]:
W = numpy.linalg.solve(numpy.dot(PHI.T, PHI), numpy.dot(PHI.T, t))
print W
W = numpy.dot(numpy.linalg.inv(numpy.dot(PHI.T, PHI)), numpy.dot(PHI.T, t))
print W

予測値は$y=w_{0}+w_{1}x_{1}+w_{2}x_{2}\ldots$で得られるのだから、以下のように計算できる。

In [None]:
print "PHI_0 = ", PHI[0]
print "W = ", W
print "Y = ", numpy.dot(PHI[0], W)

図示すると、以下のようになる。

In [None]:
#0～15までのデータに対して、予測を行う
xlist = numpy.arange(0, 15, 0.5)
ylist = [numpy.dot(W, phi(x)) for x in xlist]

matplotlib.pyplot.xlabel("Years")
matplotlib.pyplot.ylabel("Salary")
matplotlib.pyplot.plot(X1, t, 'o')
matplotlib.pyplot.plot(xlist, ylist)

実測値tと予測値Yを比較した場合、以下のようになる。

In [None]:
Y = numpy.dot(PHI, W)
xylist = numpy.array([170000, 250000])
matplotlib.pyplot.xlabel("Y")
matplotlib.pyplot.ylabel("t")
matplotlib.pyplot.plot(Y, t, 'o')
matplotlib.pyplot.plot(xylist, xylist)

##重回帰

In [None]:
%matplotlib inline
import numpy
import matplotlib.pyplot
from mpl_toolkits.mplot3d import Axes3D
import pandas

読み込むデータは以下のとおりである。

このデータから$\mathrm{Salary} = w_0+w_1 \times \mathrm{Years}+\mathrm{License}$の式（のw）を推定する。

In [None]:
t = numpy.array([213000,192000,199000,241000,175000,220000,208000,184000,203000,245000,188000,216000,200000,173000,187000,191000,219000,189000,236000,179000])
X1 = numpy.array([8,5,7,13,2,10,4,3,7,12,6,10,6,1,3,3,9,2,11,1])
X2 = numpy.array([1,0,0,0,0,0,1,0,0,1,0,0,1,0,0,1,1,1,1,1])
df = pandas.DataFrame({
        'Salary' : t,
        'Years' : X1,
        'License' : X2
        })
df.ix[ range(0,5), :][["Salary", "Years", "License"]]

データを図示すると以下のとおりである。

In [None]:
fig = matplotlib.pyplot.figure()
ax = Axes3D(fig)
ax.scatter3D(X1, X2, t)

$\Phi$の形にデータを読み込む。

In [None]:
PHI = numpy.array([numpy.array([1 for x in X1]), X1,X2]).T
PHI

単回帰の時と同様に計算する。

In [None]:
W = numpy.linalg.solve(numpy.dot(PHI.T, PHI), numpy.dot(PHI.T, t))
W

結果を図示すると以下のようになる。

In [None]:
Y = numpy.dot(PHI, W)
xylist = numpy.array([170000, 250000])
matplotlib.pyplot.plot(Y, t, 'o')
matplotlib.pyplot.plot(xylist, xylist)
matplotlib.pyplot.legend()

matplotlib.pyplot.xlabel("Y")
matplotlib.pyplot.ylabel("t")