行列演算の基礎
-----------------

$\boldsymbol{w} = (\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}$

### 重回帰分析を理解するうえで最低限何ができる必要があるか
- ベクトルの定義
- 行列の定義
- 転置
- 逆行列
- 行列積

In [1]:
import numpy as np

In [4]:
# ベクトルの定義
x = np.array([[1], [2], [3]])
print(x)

[[1]
 [2]
 [3]]


In [5]:
# 行列の定義
X = np.array([[1, 2], [3, 4]])
print(X)

[[1 2]
 [3 4]]


In [7]:
# 転置
Xt = X.T
print(Xt)

[[1 3]
 [2 4]]


In [9]:
# 逆行列
# linear algebra: 線形代数
X_inv = np.linalg.inv(X)
print(X_inv)

[[-2.   1. ]
 [ 1.5 -0.5]]


In [12]:
# 行列積
XX_inv = np.dot(X, X_inv)
print(XX_inv)

[[1.0000000e+00 0.0000000e+00]
 [8.8817842e-16 1.0000000e+00]]


よくある間違い
--------------

### ベクトルを一次元配列で行う

In [14]:
x = np.array([1, 2, 3])
x

array([1, 2, 3])

In [16]:
# 一次元だと転置しても正しく動作しない
x.T

array([1, 2, 3])

In [17]:
# 2次元配列にするのが正しい
x = np.array([[1, 2, 3]])
x

array([[1, 2, 3]])

In [18]:
x.T

array([[1],
       [2],
       [3]])

Numpyでよく使う処理
-----------------

### shape(行数と列数の取得)

In [23]:
X = np.array([
        [2, 3, 4],
        [1, 2, 3]
])

In [24]:
print(X)

[[2 3 4]
 [1 2 3]]


In [25]:
X.shape

(2, 3)

In [27]:
# タプルを分割代入できる
row, col = X.shape
print(row)
print(col)

2
3


### for文

In [29]:
for x in X:
    print(x)
    print('--')

[2 3 4]
--
[1 2 3]
--


演習問題
----------------

$
X = \left[
\begin{array}{rrr}
    1 & 2 & 3 \\
    1 & 2 & 5 \\
    1 & 3 & 4 \\
    1 & 5 & 9
\end{array}
\right]
,
y = \left[
\begin{array}{rrr}
    1  \\
    5  \\
    6  \\
    8 
\end{array}
\right]
$
のとき

$\boldsymbol{w} = (\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}$

- 4サンプル
- 入力変数は2 ※　一番左はダミー変数(バイアス=y切片)

### 段階を分けて計算する
- Step1: $(\boldsymbol{X}^{T}\boldsymbol{X})$
- Step2: $(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}$
- Step3: $\boldsymbol{X}^{T}\boldsymbol{y}$
- Step4: $\boldsymbol{w} = (\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}$

In [31]:
# Xの定義
X = np.array([
       [1, 2, 3],
       [1, 2, 5],
       [1, 3, 4],
       [1, 5, 9]
])

print(X)

[[1 2 3]
 [1 2 5]
 [1 3 4]
 [1 5 9]]


In [33]:
# yの定義
y = np.array([
   [1] ,
   [5] ,
   [6] ,
   [8] 
])
print(y)

[[1]
 [5]
 [6]
 [8]]


In [35]:
# Step1
XtX = np.dot(X.T, X)
print(XtX)

[[  4  12  21]
 [ 12  42  73]
 [ 21  73 131]]


In [38]:
# Step2
XtX_inv = np.linalg.inv(XtX)
print(XtX_inv)

[[ 1.76530612 -0.39795918 -0.06122449]
 [-0.39795918  0.84693878 -0.40816327]
 [-0.06122449 -0.40816327  0.24489796]]


In [40]:
# Step3
Xty = np.dot(X.T, y)
print(Xty)

[[ 20]
 [ 70]
 [124]]


In [42]:
# Step4
w = np.dot(XtX_inv, Xty)
print(w)

[[-0.14285714]
 [ 0.71428571]
 [ 0.57142857]]


# Scikit-learnで実装

- Pythonで機械学習を行う処理をサポートするためのライブラリ

In [47]:
import sklearn

In [50]:
# すべてimportすると重いため必要なものだけ読み込む
# 今回は重回帰分析だけ
from sklearn.linear_model import LinearRegression

In [52]:
# モデルの宣言
model = LinearRegression()

In [54]:
# モデルの学習 ← パラメータの調整
model.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [55]:
# 調整後のパラメータを確認する
model.coef_

array([[0.        , 0.71428571, 0.57142857]])

In [56]:
# 切片
model.intercept_

array([-0.14285714])

In [58]:
# 予測精度 ← 決定係数 0 ~ 1の値
model.score(X, y)

0.6923076923076923

In [63]:
# 予測値の計算
x = np.array([[1, 2, 3]])

In [65]:
y_pred = model.predict(x)
print(y_pred)

[[3.]]
