# Stage2 機械学習
## 機械学習概要
## 線形回帰モデル
## 非線形回帰モデル
## ロジスティック回帰モデル
## 主成分分析
## k近傍法(kNN)
## k-平均法(k-means)

## 機械学習概要

- 機械学習
<br>
タスクをプログラムで実行する際の性能を、データを与えることで改善させる
<br>
人は学習の仕方をプログラミングする
- モデリングプロセス
  1. 問題設定
  1. データ選定
  1. データの前処理
  1. 機械学習モデルの選定
  1. モデルの学習(パラメータ推定)
  1. モデルの評価
- 機械学習タスク
  - 教師あり学習
  <br>
  学習時に正解データを与える
  <br>
  数値(連続値)を正解とする予測と、ラベル(離散値)を正解とする分類がある
  - 教師なし学習
  <br>
  学習時に正解データを与えない
  <br>
  入力データをグループ分けするクラスタリングと、入力データを圧縮する次元削減がある
- データの分割
<br>
機械学習モデルの学習時にはデータを学習用(モデルの学習)と検証用(モデルの精度を検証)に分割する
<br>
データを分割することで汎化性能(未知のデータに対する性能)を測定できる
<br>
ホールドアウト法やクロスバリデーションなどの方法がある

## 線形回帰モデル

### まとめ
- 線形
<br>
入力と出力が超平面の関係にある(比例の拡張)
<br>
$\begin{align}
y &= \sum_{i = 0}^{n - 1} a_i x_i (x_0 = 1) \nonumber \\
 &= \mathbb{a}^T \mathbb{x} \nonumber
\end{align}$
- 回帰問題
<br>
ある入力(離散あるいは連続値)から出力を予測する問題
<br>
入力と出力の関係が線形ならば線形回帰、そうでなければ非線形回帰
<br>
入力(説明変数または特徴量)をm次元ベクトル $\mathbb{x}$ 、出力(目的変数)をスカラー値 $y$ で表す
- 線形回帰モデル
<br>
回帰問題に対する機械学習モデルの1つ
<br>
入力とパラメータの線形結合を出力
<br>
出力は線形結合+誤差と仮定
  - パラメータ $\mathbb{w} \in \mathbb{R}^n$
  - 線形結合 $\hat{y} = \mathbb{w}^T x + w_0$
  - 教師データ $\{(\mathbb{x}_i, y_i) \mid i=1, \ldots, n\}$
- 線形回帰モデルの学習
<br>
最小二乗法(学習データの平均二乗誤差の最小化)でパラメータを学習
<br>
$\hat{\mathbb{w}} = \arg \min_{\mathbb{w} \in \mathbb{R}^{m + 1}} \frac{1}{n_{\text{train}}} \sum_{i=1}^{n_{\text{train}}} \left(\hat{y}_{i}^{(\text{train})} - y_{i}^{(\text{train})}\right)^2$
<br>
外れ値に弱い

### 実装演習
- np_regression.ipynb
<br>
単回帰・多項式回帰・重回帰のコードを実行した
<br>
単回帰の精度は高いように見えたが、重回帰(3変数)の結果は正解から大きく外れていた
<br>
重回帰ではデータが10件と少ないため、精度が悪いと考えられる
<br>
以下は重回帰の結果である
```
    w0_true:   1.0   w0_estimated: -0.19
    w1_true:   0.5   w1_estimated: 1.3e+01
    w2_true:   2.0   w2_estimated: -3.8e+01
    w3_true:   1.0   w3_estimated: 2.5e+01
```
- skl_regression.ipynb
<br>
Boston Housing Dataに対して単回帰・重回帰(2変数)のコードを実行した
<br>
データに対してかなり単純なモデルであるため、予測精度はよくない
<br>
以下は単回帰の結果である
<br>
<img src="stage_2_linear.png">
- まとめ
線形回帰は複雑なデータに対して精度は高くならない
<br>
一方でモデルの中身が単純であり、パラメータから入力と出力の関係が読み取りやすい

## 非線形回帰モデル

### まとめ
- 基底展開法
<br>
基底展開法(非線形回帰モデル)では、線形回帰の $x$ の代わりに $\phi (x)$ を用いる
<br>
例：$y = w_0 + w_1 x + w_2 x^2 + w_3 x_3$
<br>
入力については非線形だが、パラメータについては非線形
<br>
- 基底関数 $\phi (x)$
<br>
多項式関数 $\phi_j (x) = x^j$
<br>
ガウス型基底関数 $\phi_j (x) = \exp \left\{\frac{(x - \mu_j)^2}{2 h_j}\right\}$
- 基底展開法の学習
<br>
入力を $x$ から $\phi (x)$ に置き換えることで、線形回帰モデルと同様に学習可能
- 未学習と過学習
  - 未学習
  <br>
  学習データに対して、誤差が大きい
  <br>
  より表現力の高い(項が多いなどの)モデルを利用する必要がある
  - 過学習
  <br>
  学習データに対して誤差は小さいが、テストデータに対して誤差が大きい
  <br>
  学習データを増やす、モデルの表現力を下げる(項を減らす、正則化を利用)などで対策
- 正則化(罰則化)
<br>
モデルが複雑になると値が大きくなる項(正則化項)を誤差に足して学習
<br>
L2ノルムやL1ノルムなどを正則化項に利用する

### 実装演習
- skl_nonlinear regression.ipynb
<br>
非線形な形で生成されたデータに対して、以下の機械学習モデルを実行した
データが単純なため、非線形回帰では精度が高くなりやすいが、ハイパーパラメータの調整が必要
  - 線形回帰
  <br>
  予測が全くうまくいっていない
  <br>
  <img src="stage_2_nonlinear_linear.png">
  - ガウス型基底関数+L2ノルム(非線形回帰)
  <br>
  図のように多くの関数の線形結合で回帰を行っている
  <br>
  予測がうまくいっているように見える
  <br>
  <img src="stage_2_nonlinear_kernelRidge.png">
  - ガウス型基底関数+L1ノルム(非線形回帰)
  <br>
  L1ノルムの係数により大きく結果が変わる
  <br>
  図は $\alpha = 0.01$ の場合
  <br>
  $\alpha$ が大きいと予測値がほぼ0になる(パラメータが0になるため))
  <br>
  <img src="stage_2_nonlinear_kernelLasso.png">
  - 多項式回帰(非線形回帰)
  <br>
  1次から10次の多項式で回帰
  <br>
  図から次数によって回帰曲線が複雑になることがわかる
  <br>
  適切な次数での予測はうまくいっている
  <br>
  <img src="stage_2_nonlinear_polynomial.png">
  - サポートベクター回帰(非線形回帰)
  <br>
  ハイパーパラメータにより予測精度が大きく異なる
  <br>
  ハイパーパラメータの調整が適切ならば、予測精度は高くなる
  <br>
  <img src="stage_2_nonlinear_SVR.png">
  - 深層学習
  <br>
  精度は他の非線形回帰程度に高くなるが、学習時間が大きくなる
  <br>
  単純なデータであるため、あまり利用すべきではないと考えられる
  <br>
  <img src="stage_2_nonlinear_DL.png">

## ロジスティック回帰モデル

### まとめ
- 分類問題
<br>
目的変数がクラス(離散値)である問題
  - 説明変数 $\mathbb{x} = (x_1, x_2, \ldots, x_m)^T \in R^m$
  - 目的変数 $y \in \{0, 1\}$
  - 教師データ $\{(\mathbb{x}_i, y) \mid i = 1, \ldots, n\}$
- 分類問題に対するアプローチ
<br>
ロジスティック回帰は識別的アプローチ
  - 識別的アプローチ
  <br>
  $p (C_k \mid  \mathbb{x})$ を直接モデル化
  <br>
  識別関数 $f$ を構成する場合もある($f(\mathbb{x})>0$ ならば $C = 1$ など)
  - 生成的アプローチ
  <br>
  $p (C_k)$ を $p (\mathbb{x} \mid C_k)$ をモデル化し、ベイズ則で $p (C_k \mid \mathbb{x})$ を求める
- ロジスティック回帰モデル
<br>
分類問題を解くためのモデル
<br>
$\mathbb{x}^T \mathbb{w}$ を $[0, 1]$ に変換(シグモイド関数 $\sigma$ を利用)し、 $y$ と対応させる
<br>
$P(Y = 1 \mid \mathbb{x}) = \sigma (w_0 + w_1 x_1 + \cdots + w_m x_m)$
- シグモイド関数
<br>
入力が任意の実数で出力は0～1の値
<br>
確率を表現するのに利用される
<br>
シグモイド関数の微分はシグモイド関数で表される(計算しやすい)
- ロジスティック回帰モデルの学習
<br>
ロジスティック回帰モデルではベルヌーイ分布を利用し、パラメータを最尤推定している
<br>
最尤推定：尤度関数(パラメータが固定のときに与えられたデータが得られる確率)が最大となるパラメータを推定
<br>
ロジスティック回帰モデルの最尤推定は解析的に解くのが難しいため、勾配降下法(逐次的な探索)または確率的勾配降下法で解く
- 分類問題の性能指標
  混同行列(予測クラスと実際のクラスの組み合わせごとに個数をカウントし、 $2 \times 2$ の行列で表す)などを利用

### 実装演習
- skl_logistic_regression.ipynb
<br>
Titanic Dataの生死推定をロジスティック回帰で行った
  - 1変数(チケット価格)利用の場合
  <br>
  チケット価格が高いほど生存と推定している
  <br>
  また出力結果とシグモイド関数の関係がよく見える
  <br>
  <img src="stage_2_logistic_1.png">
  <br>
  混同行列を見ると、ほとんど死亡と推定していることがわかる(実際の値もほとんどが死亡)
  <br>
  <img src="stage_2_logistic_confusion1.png">
  - 2変数利用の場合
  <br>
  分類境界はデータの傾向をつかんでいるように見える
  <br>
  <img src="stage_2_logistic_2.png">
  <br>
  混同行列からは、1変数の場合より精度が高くなっていることがわかる
  <br>
  <img src="stage_2_logistic_confusion2.png">
  - 性別ごと
  <br>
  性別ごとにロジスティック回帰を行った
  <br>
  結果から、性別によって年齢と生死の関係が違うことがわかる
  <br>
  <img src="stage_2_logistic_faceted.png">
- np_logistic_regression.ipynb
<br>
ランダムに生成したデータに対してロジスティック回帰を行った
<br>
機械学習のパッケージを利用していないため、学習アルゴリズムの実装がよく分かった
<br>
<img src=stage_2_logistic_np.png>

## 主成分分析

### まとめ
- 主成分分析
<br>
多変量データを圧縮(入力データの線形変換を少数利用)する手法
<br>
可視化や分析を扱いやすくするために利用
- 主成分分析の学習
<br>
線形返還後の変数の分散が最大(情報が多い)となるようにパラメータを学習
<br>
ラグランジュの未定乗数法を利用して解く

### 実装演習
- skl_pca.ipynb
<br>
がんのデータに対して主成分分析の有無により、ロジスティック回帰の分類精度の変化を観察した
<br>
主成分分析なしですべての変数を利用して分類すると、検証データの正解率が97%だった
<br>
一方、主成分分析で2変数に圧縮してから分類すると、図の結果になった
<br>
使用する変数の数が大きく異なるが、分類精度があまり悪化していないことがわかる
<br>
すなわち、元のデータが2変数でうまく圧縮されている
<br>
<img src="stage_2_PCA.png">
- np_pca.ipynb
<br>
ランダムに相関のあるデータを生成し、主成分分析を行った
<br>
図から主成分分析が分散を考慮してデータを圧縮している様子がわかる
<br>
また2つの主成分が直交していることもわかる
<br>
他に固有ベクトルと主成分の関係を観察した
<br>
<img src="stage_2_PCA_np.png">

## k近傍法(kNN)

### まとめ
- k近傍法
<br>
分類問題のための機械学習手法
<br>
最近傍のデータをk個探して、最頻値のクラスを出力
<br>
kを変化させると結果が変わる(適切なパラメータを選択する必要がある)
<br>
kを大きくすると決定境界が滑らかになる

### 実装演習
- np_knn_ipynb
<br>
ランダムに生成したデータに対して、k近傍法でクラスタリングを行った
<br>
コードを実行することでk近傍法の学習とはデータを記憶することでしかないことを実感した
<br>
またkの値を大きくすると境界線が滑らかになることを観察した
<br>
図は $k = 3$ と $k = 11$ の場合だが、 $k = 11$ の場合のほうが境界が滑らかになっていることがわかる
<br>
<img src="stage_2_kNN.png">
<img src="stage_2_kNN_11.png">

## k-平均法(k-means)

### まとめ
- k-平均法
<br>
クラスタリング(教師なし学習)の手法
<br>
クラスタリング：与えられたデータに対して、特徴の似ているもの同士をグループ化
<br>
初期値を変えるとクラスタリング結果が変わる(k-平均法の改良によって改善)
- k-平均法のアルゴリズム
  1. 各クラスタ中心の初期値を設定
  1. 各データ点に対して各クラスタ中心との距離を計算して、最も距離が近いクラスタを割り当て
  1. 各クラスタの平均ベクトル(中心)を計算
  1. 収束するまで2、3を繰り返す

### 実装演習
- skl_kmeans.ipynb
<br>
Wine Datasetに対してk-平均法によってクラスタリングを行った
<br>
クラスタリング結果とデータセット中のクラス(クラスタリングには使用していない)がある程度対応した
<br>
ここから、このデータでは入力と出力の対応関係があることが読み取れる
    
            class_0  class_1  class_2
    labels
         0        0       50       19
         1       46        1        0
         2       13       20       29
- np_kmeans.ipynb
<br>
ランダムに生成したデータに対してk-平均法でクラスタリングを行った
<br>
単純なデータであるため、うまくクラスタリングできた
<br>
パッケージを使用せずに実装したため、k-平均法のアルゴリズムがよく理解できた
<br>
<img src="stage_2_kmeans.png">