# 重回帰分析

$$
w = (X^{T}X)^{-1}X^{T}y
$$

必要な知識

- ベクトルの定義
- 行列の定義
- 転置
- 逆行列
- 行列積

In [2]:
import numpy as np

In [4]:
# ベクトルの定義
x = np.array([[1], [2], [3]])
x

array([[1],
       [2],
       [3]])

In [6]:
# (行, 列)を表示
x.shape

(3, 1)

In [9]:
# 行列の定義
X = np.array([[1,2], [3,4]])
X

array([[1, 2],
       [3, 4]])

In [11]:
# 転置(Transpose)
Xt = X.T

In [14]:
# 逆行列 (linalg: linear Algebra: 線形代数)
X_inv = np.linalg.inv(X)
X_inv

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [16]:
# 行列積
XX_inv = np.dot(X, X_inv)

## 【補足】 NumPyで良く使用する処理

In [17]:
B = np.array([
    [1,2,3],
    [2,3,4]
])

In [20]:
row, col = B.shape
print(f"row={row}, col={col}")

row=2, col=3


In [21]:
for b in B:
    print(b)

[1 2 3]
[2 3 4]


# 演習課題

## 重回帰分析の計算

### データセット

```
x = [
  [1, 2, 3],
  [1, 2, 5],
  [1, 3, 4],
  [1, 5, 9]
]

y = [
 [1],
 [5],
 [6],
 [8]
]
```

### 必要な知識

$$
w = (X^{T}X)^{-1}X^{T}y
$$

- ベクトルの定義
- 行列の定義
- 転置
- 逆行列
- 行列積

### 流れ

1. ステップ1: $X^{T}X$
2. ステップ２: $(X^{T}X)^{-1}$
3. ステップ3: $X^{T}y$
4. ステップ4: $w = (X^{T}X)^{-1}X^{T}y$

In [23]:
import numpy as np

In [25]:
# 行列の定義
X = np.array([
  [1, 2, 3],
  [1, 2, 5],
  [1, 3, 4],
  [1, 5, 9]
])
X

array([[1, 2, 3],
       [1, 2, 5],
       [1, 3, 4],
       [1, 5, 9]])

In [27]:
# ベクトルの定義
y = np.array([
 [1],
 [5],
 [6],
 [8]
])
y

array([[1],
       [5],
       [6],
       [8]])

In [29]:
# ステップ1
XtX = np.dot(X.T, X)
XtX

array([[  4,  12,  21],
       [ 12,  42,  73],
       [ 21,  73, 131]])

In [32]:
# ステップ２
XtX_inv = np.linalg.inv(XtX)
XtX_inv

array([[ 1.76530612, -0.39795918, -0.06122449],
       [-0.39795918,  0.84693878, -0.40816327],
       [-0.06122449, -0.40816327,  0.24489796]])

In [34]:
# ステップ3
Xty = np.dot(X.T, y)
Xty

array([[ 20],
       [ 70],
       [124]])

In [36]:
# ステップ4
w = np.dot(XtX_inv, Xty)
w

array([[-0.14285714],
       [ 0.71428571],
       [ 0.57142857]])

# Scikit-learnを利用した重回帰分析の実装

## 重回帰分析の計算

### データセット

```
x = [
  [1, 2, 3],
  [1, 2, 5],
  [1, 3, 4],
  [1, 5, 9]
]

y = [
 [1],
 [5],
 [6],
 [8]
]
```

## Scikit-learn

https://scikit-learn.org/stable/

### できること

- Classification: 分類
- Regression: 回帰
- Clustering: クラスタリング(教師なし)


[機械学習の3大トピック | esa.io](https://ktamido.esa.io/posts/618#%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%81%AE3%E5%A4%A7%E3%83%88%E3%83%94%E3%83%83%E3%82%AF)

In [38]:
import sklearn
sklearn.__version__

'0.23.1'

In [39]:
import numpy as np

In [43]:
X = np.array([
  [1, 2, 3],
  [1, 2, 5],
  [1, 3, 4],
  [1, 5, 9]
])
y = np.array([
 [1],
 [5],
 [6],
 [8]
])
print(X)
print(y)

[[1 2 3]
 [1 2 5]
 [1 3 4]
 [1 5 9]]
[[1]
 [5]
 [6]
 [8]]


## Scikit-learnで実装

- [sklearn.linear_model.LinearRegression | API doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)  
線形のモデル

In [44]:
from sklearn.linear_model import LinearRegression

In [51]:
# モデルの宣言

# fit_intercept: このモデルで切片を計算するかどうか。Falseに設定すると、切片は計算に使用されない(つまり、データは中心化されていると予想される)。
model = LinearRegression(fit_intercept=False)

In [52]:
# モデルの学習 (パラメータの調整)
model.fit(X, y)

LinearRegression(fit_intercept=False)

In [53]:
# 調整後のパラメータの確認
model.coef_

array([[-0.14285714,  0.71428571,  0.57142857]])

In [55]:
# 予測精度の確認 (決定係数 0 ~ 1)
# 高いほどよい
model.score(X, y)

0.6923076923076923

In [61]:
# 未知のデータを予測する
x_new = np.array([[1, 3, 6]])
y_pred = model.predict(x_new)
y_pred

array([[5.42857143]])