# 機械学習
## 線形回帰モデル

- 機械学習モデリングプロセス  
機械学習による問題解決は、一般に下記のプロセスで進める。  
  
1. 問題設定  
（本当に機械学習で解決する必要があるか？　データ数が足りるか？　ビジネス価値に対して労力が見合うか？など）
2. データ選定  
 (GIGOに注意。データを適切に集めなければ、適切な分析はできない）
3. データの前処理  
 (クレンジング。欠損値や外れ値の処理など）
4. 機械学習モデルの選定  
 (線形回帰、ロジスティック回帰、SVM、深層学習、k-means、PCA、knnなど)  
5. モデルの学習（パラメータ推定）  
6. モデルの評価

- 機械学習モデル概要  
大きく2つにわけられる。
1. 教師あり学習  
予測（回帰）あるいは分類を行う。
2. 教師なし学習  
クラスタリングあるいは次元削減などを行う。  
※ 半教師あり学習のような手法もある。（※ 強化学習は教師なしに含む？）  

- 線形とは？  
$y=ax+b$とか$z=ax+by+c$など。  
n次元空間だと、$y=a0+\sum a_i x_i$のようにあらわせる。  
x0=1とすれば、$y=\sum a_i x_i$とまとめられる。  
さらに、$a_i$、$x_i$を並べてできるベクトルを$\mathbf{a}$、$\mathbf{x}$とすると、$y = \mathbf{a}^T\cdot\mathbf{x}$ とできる。

- 回帰問題  
ある入力から出力（連続値、多くのケースは実数）の予想をする。  
※ ランキング問題などにも使える。ただし、バプニックの原理に従うと望ましくない……。  
※ 参考：密度比推定（杉山将）  
- 回帰で扱うデータ  
入力（特徴量 or 説明変数）$ \in\mathbb{R}^m $、出力（目的変数） $\in\mathbb{R}^1$

- 線形回帰モデル  
教師あり学習の一種（目的変数まで含めた既存データが必要）  
$\hat{y}=\mathbf{w}^T\mathbf{x} + w_0$のパラメータ（係数ベクトルと切片）を求めることになる。  
- パラメータの決め方  
既存データを「よく説明」できるように決めていく。  
つまり、あるデータに対して、$y=w_0+w_1x_1+\epsilon$とたときに、$\epsilon$が小さいほうが良い回帰である（良いパラメータである）と言える。  
傾向を与えうる情報を説明変数に含められていない場合は、誤差項がそのずれを回収している。
※ 誤差には、偶然誤差と系統誤差がある。  
- 連立方程式の行列表現  
$\mathbf{y} = \mathbf{X}\mathbf{w}+\mathbf{\epsilon}$  
仮に、データ数n、説明変数1つならy:n×1、X:n×2、w:2×1、($\epsilon$:n×1)の形。
- 説明変数が多次元の場合
線形重回帰モデルを使う。単回帰は直線、重回帰は曲面（曲面も正しいが、"直線"に合わせるなら、平面）。  
$\mathbf{y} = \mathbf{X}\mathbf{w}$を計画行列などという。  
- 連立方程式を解ける条件  
変数の数＞＝式の数、だと（普通は）解けない。  

※ 参考資料：機械学習のエッセンス（加藤公一） 

- データの扱い  
データは、学習用データと検証用データに分ける。（過学習を避けるため）  
汎化性能（Generalization）を測定する必要がある。  

- パラメータの決め方  
誤差を小さくするために、線形回帰モデルでは、通常は最小二乗法で推定する。
$\sum \epsilon^2$  
2乗するのは、数学的な取り扱いを容易にするため。  
※ 2乗損失を考えるのは、外れ値に弱い。Huber損失、Tukey損失などを考えればよい。  
※ 参考資料：イラストで学ぶ機械学習（杉山将）  
最小二乗誤差は、
$$
J(\mathbf(w))=MSE_{train} =\frac{1}{n_{train}}\sum_{i=1}^{n_{train}}(\hat{y}_i^{(train)}-y_i^{(train)})^2
$$  
と表される（$\mathbb{w}$の関数）。  
最小二乗法では、
$$
\hat{\mathbb{w}} = \arg \min_{\mathbb{w}\in\mathbf{R}^{m+1}}MSE_{train}
$$  
を求める。(MSEは連続,全点微分可能,唯一の最小値を持つので）$\hat{\mathbb{w}}$を求めるには、$\mathbb{w}$の各成分で偏微分したものが0となる式を解けばよい。  
つまり、
$$
\frac{\partial}{\partial \mathbb{w}}MSE_{train}=0
$$  
あとは、各行列成分を計算して、
$$
\hat{\mathbb{w}}=(X^{(train)T}X^{(train)})^{-1}X^{(train)T}y^{(train)}
$$  
※ 解析的に解ける！！  
逆行列は常に存在するわけではない。（その場合は、一般化逆行列を考える？）

## 線形回帰（実計算with Python）  
Pandas,Numpy等を使って、ボストンデータセットの解析を行う。

### データセット読み込み

In [3]:
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np

In [4]:
boston = load_boston()

In [8]:
df=pd.DataFrame(data=boston.data, columns=boston.feature_names)
df['PRICE']=np.array(boston.target)

In [9]:
df.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [10]:
df.head(10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21,28.7
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.6,12.43,22.9
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.9,19.15,27.1
8,0.21124,12.5,7.87,0.0,0.524,5.631,100.0,6.0821,5.0,311.0,15.2,386.63,29.93,16.5
9,0.17004,12.5,7.87,0.0,0.524,6.004,85.9,6.5921,5.0,311.0,15.2,386.71,17.1,18.9


### 単回帰分析  
RMを利用する。

#### sklearnを使用

In [59]:
data = df.RM.values.reshape(-1,1)
target = df.PRICE.values.reshape(-1,1)

In [60]:
from sklearn.linear_model import LinearRegression

In [61]:
model = LinearRegression()
model.fit(data, target)

LinearRegression()

In [62]:
model.predict([[1]])

array([[-25.5685118]])

In [63]:
buf = 10
model.predict([[buf]])

array([[56.35046904]])

In [64]:
print(model.coef_)
print(model.intercept_)

[[9.10210898]]
[-34.67062078]


#### numpyで計算
sklearnを使わない場合

In [65]:
data_buf = np.concatenate((np.ones(data.shape[0]).reshape(-1,1),data),axis=1)

In [66]:
what = np.linalg.inv(data_buf.T.dot(data_buf)).dot(data_buf.T).dot(target)

In [67]:
print(what)

[[-34.67062078]
 [  9.10210898]]


In [68]:
#predict sklearnを使った場合と一致する。
print(np.array([[1,1]]).dot(what))
print(np.array([[1,buf]]).dot(what))

[[-25.5685118]]
[[56.35046904]]


RM=1でうまくいかないのは、外挿になっているからだと思われる。  
RMは一戸あたりの平均部屋数で、最小値は3.56、最大値は8.78になっている。（下）

In [69]:
df.describe().RM

count    506.000000
mean       6.284634
std        0.702617
min        3.561000
25%        5.885500
50%        6.208500
75%        6.623500
max        8.780000
Name: RM, dtype: float64

In [70]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

### 重回帰分析(2変数)  
CRIM,RMを使う。  
#### sklearnを使う場合

In [71]:
data2 = df.loc[:,["CRIM","RM"]].values
target2 = df.loc[:,["PRICE"]].values

In [72]:
print(target2.shape)
print(type(target2))

(506, 1)
<class 'numpy.ndarray'>


In [73]:
model2 = LinearRegression()

In [74]:
model2.fit(data2,target2)

LinearRegression()

In [81]:
print(model2.predict([[0.2,7]]))
print(model2.predict([[0.4,7]]))
print(model2.predict([[0.2,6]]))

[[29.43977562]]
[[29.38679297]]
[[21.04870738]]


In [76]:
print(model2.coef_)
print(model2.intercept_)

[[-0.26491325  8.39106825]]
[-29.24471945]


#### sklearnを使わない場合

In [77]:
data_buf2 = np.concatenate((np.ones(data2.shape[0]).reshape(-1,1),data2),axis=1)

In [78]:
what2 = np.linalg.inv(data_buf2.T.dot(data_buf2)).dot(data_buf2.T).dot(target2)

what2の値は、model2の係数、切片に一致する

In [79]:
print(what2)

[[-29.24471945]
 [ -0.26491325]
 [  8.39106825]]


In [80]:
#predict sklearnを使った場合と一致する。
print(np.array([[1,0.2,7]]).dot(what2))

[[29.43977562]]
