# 機械学習

# 線形回帰モデル

### 回帰問題
* ある入力(離散あるいは連続値)から出力(連続値)を予測する問題
* 直線で予測…線形回帰
* 曲線で予測…非線形回帰
___ 
### 回帰で扱うデータ
* 入力…元のベクトル(m=1の場合はスカラ)(説明変数)
* 出力…値(目的変数)
___

### 線形回帰モデル
$$\hat{y}=w^\intercal x+w_0=\sum_{j=1}^mw_jx_j+w_0$$
* 回帰問題を解くための機械学習モデルの1つ
* 教師あり学習
* **入力とm次元パラメータの線形結合を出力する**モデル
___
### 線形結合
* 入力とパラメータの内積
* 入力ベクトルとの線形結合に加え、切片$w_0$も足し加える
___

### モデルのパラメータ
* 推定すべきパラメータ
* 特徴量が予測値に対してどのように影響を与えるかを決定する重みの集合
* **最小二乗法により推定**
___

### 単回帰モデル
$$
y=w_0+w_1x_1+\epsilon
$$
* 入力(説明変数)が1次元の場合、単回帰モデルという
* 推定すべきパラメータである$w_1$を回帰係数という
* ここでの$\epsilon$は誤差をあらわす
___

### 単回帰モデルの行列表現
$$y=Xw+\epsilon$$


$$
\left\{
\begin{array}{ll}
y=(y_1,y_2,...,y_n)^\intercal\\
X=(x_1,x_2,...,x_n)^\intercal\\
x_i=(1,x_1)^\intercal\\
w=(w_0,w_1)^\intercal\\
\epsilon=(\epsilon_1,\epsilon_2,...,\epsilon_n)^\intercal
\end{array}
\right.
$$
* 単回帰は説明変数が1次元なので、パラメータ$w$も1次元
___

### 重回帰モデル
$$
y=w_0+w_1x_1+w_2x_2+\epsilon
$$
* 入力(説明変数)が2次元以上の場合、重回帰モデルという
* 重回帰モデルではデータを曲面で観測する
___

### 重回帰モデルの行列表現
$$y=Xw+\epsilon$$


$$
\left\{
\begin{array}{ll}
y=(y_1,y_2,...,y_n)^\intercal\\
X=(x_1,x_2,...,x_n)^\intercal\\
x_i=(1,x_{i1},...,x_{im})^\intercal\\
w=(w_0,w_1,...,w_m)^\intercal\\
\epsilon=(\epsilon_1,\epsilon_2,...,\epsilon_n)^\intercal
\end{array}
\right.
$$
* 重回帰では説明変数が増え、それに伴い、パラメータ$w$が増える(次元数が増える)
___

### データの分割とモデルの汎化性能測定
* 学習用データ...機械学習のモデルの学習に使用するデータ
* 検証用データ...学習済みモデルの精度の検証に使用するデータ
* シンプルに比率でに分割する分割手法をホールドアウト法という
___

### 平均二乗誤差(残差平方和)
$$MSE=\frac1{n}\sum_{i=1}^n(\hat{y_i}-y_i)^2$$
* データとモデル出力の二乗誤差の和
* 小さいほど直線とデータの距離が近い(誤差が小さい)
___

### 最小二乗法
$$\hat{w}=argmin MSE$$
* 学習データの平均二乗誤差を最小とするパラメータを探索
$$\frac{\partial}{\partial w}MSE=0$$
* 学習データの平均二乗誤差の最小化は、その勾配が0になる点を求めれば良い
___

### 最小二乗法による、回帰係数
$$\hat{w}=(X^\intercal X)^{-1}X^\intercal y$$
___

### ハンズオン

In [4]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

boston = load_boston()
df = pd.DataFrame(data=boston.data, columns = boston.feature_names)
df['PRICE'] = np.array(boston.target)
# 説明変数
data = df.loc[:, ['CRIM', 'RM']].values
# 目的変数
target = df.loc[:, 'PRICE'].values

model = LinearRegression()
model.fit(data, target)
model.predict([[0.3, 4]])

array([4.24007956])

* ボストンの住宅データセットを線形回帰モデルで分析
* 課題...部屋数が4で犯罪率が0.3の物件はいくらになるか？
* 結果...4,240$
___