このページでは機械学習の基本用語を説明します。
その後、一番簡単な例を用いて機械学習の流れについて説明します。

## Framing: Key ML Terminology
https://developers.google.com/machine-learning/crash-course/framing/ml-terminology

## 基本用語

- Features : 入力データ。x軸。複数あっても良い（それだけ次元が増える）。
- Label : 出力データ。y軸。予想したいもの
- Example : 具体的なデータ。Labelの有無で以下の2種類に分けられる。
  - Labeled Example : FeatureとLabelのセット。これを使ってモデルに学習させる。
  - Unlabeled Example : Labelのついていないexample
- Model : featuresとlabelの関係

モデルのライフサイクル

- Training : モデルに学習させる
- Inference : 学習されたモデルを利用してunlabeled examplesにラベル付けをおこなう

モデルの種類

- regression model : 連続値を扱う。身長→体重。文言→広告のクリック率
- classification model : 離散値を扱う。メール→スパム or not。画像→犬, 猫, or ハムスター

## Linear Regression
https://developers.google.com/machine-learning/crash-course/descending-into-ml/linear-regression

ここからは簡単な機械学習の例を用いて、機械学習の流れを説明する。

ここで行いたいことは、図１にある赤い点に対して、青い線を学習することである。

<img src="assets/linear_regression.png">
<図1:線形回帰>

この直線は以下のように表すことができる。(一般的な一次関数の式)

$$y = mx + b.$$

これを機械学習の世界ではよく以下のように書く。

$$ y' = b + w_1 x_1 $$

where
- $y'$ : 予想されるラベル
- $b$ : bias
- $w_1$ : feature 1のweight
- $x_1$ : feature 1の値

この式は高次元に拡張することもできる。
例えば3つのfeaturesからラベル付けを行う場合、以下の式のようになる。

$$ y' = b + w_1 x_1 + w_2 x_2 + w_3 x_3. $$



## Training and Loss
https://developers.google.com/machine-learning/crash-course/descending-into-ml/training-and-loss

モデルに学習させることとは、先ほどの式におけるバイアスとウェイトについて、良い値を求めるということになる。

この良い値というのは、Lossが最小化されるということである。
このような方法?考え方?をEmpirical risk minimization (ERM)と呼ぶ。

Lossとはある一つのexampleに対して、モデルの予想がどれだけ悪いかを示す値である。
図2は赤い矢印がロスを示しており、この矢印の長さがロスの大きさとなる。
図2の右の予想の方がロスが小さいので、右の方が良いと言える。

<img src="assets/loss.png">
<図2:ロス関数>

あるexampleに対するロスを計算するための関数には、squared loss（aka $L_2$ loss, 二乗損失)を使う。

$$ squared loss = (y - y')^2 $$

二乗損失を用いてモデルの良さを求める際には、Mean square error (MSE, 平均二乗誤差) を利用する。
これは全てのexamplesに対して二乗損失を求め、その平均を取るというものである。

$$ MSE = \frac{1}{N} \sum_{(x,y) \in D}(y - prediction(x))^2 $$

where 
- $(x,y)$ : あるexample
- $prediction(x)$ : モデルによって計算されるxに対するy'の値
- $D$ : データセット
- $N$ : $D$のサイズ

## Gradient Descent 最急降下法
https://developers.google.com/machine-learning/crash-course/reducing-loss/gradient-descent

それではMSEが最小になるようなウェイトをどのように求めれば良いか。
全てのウェイトでMSEの値を計算すれば最小は求まりまるが非常に非効率である。

ここで、MSEの値をグラフ化すると必ず次の図のように凸関数になる。

<img src="assets/mse-func.png">
<図3 : MSE(ロス関数)>

したがって、この凸関数の極値を求めればロスを一番小さくするウェイトの値がわかる。

そこで、ある初期値から少しずつウェイトを動かしていき極値を求める方法を考える。

<img src="assets/gradient-descent.png">
<図4 : 最急降下法>

この時、図のようにグラフが可視化されていればウェイトを増加させれば良いか減少させれば良いかがわかる。
しかし、実際にはある一点しかわかっていないのでどちらに動かせばロスが小さくなるかがわからない。

そこで、ロスが小さくなる方向を調べるために、傾きを求める=微分する。

図は2次元のためウェイトを増加もしくは減少のどちらかを選択する問題になるが、高次元の場合にはロスが小さくなる方向が複数方向ある可能性があり、どの方向に動かせば良いかを決めることは難しい。
そこで、「傾きが一番急な方向に動かす」というのが最急降下法である。

このようにして傾きが一番急な方向にウェイトを更新し、更新処理を複数回繰り返すことで最終的には傾きがゼロの地点にたどり着き、極値が求められる。

## Learning Rate
https://developers.google.com/machine-learning/crash-course/reducing-loss/learning-rate

learning rate（もしくはstep size)とは、次の点を決めるために使われる係数のことである。

先ほど傾き(微分)を見て次にどちらに移動するかを決めると説明した。
その時にどれだけ移動するかを$ (微分値) x learning rate $によって求める。

この時、learning rateが小さければなかなか極値にたどり着かず、収束までに時間がかかる。

<img src="assets/small_learning_rate.png">

一方で、learning rateが大きすぎると極値を通り過ぎてしまう。

<img src="assets/large_learning_rate.png">

したがって、ちょうど良いlearning rateを設定する必要がある。

機械学習において、learning rateのようなプログラマが調節する必要のあるパラメータをHyperparametersと呼ぶ。

## 以下は細かい数学の部分が気になる人用のメモ

最急降下法では、微分して傾きを求め、一番傾きが急な方向にウェイトを変更するが、実際その傾きはどのようにして求めるのだろう。

ここで、ロス関数は以下の式で表される。
（上のグラフでは2次元にするために$b$を無視して$w$だけを変数として書いている。本来、ここでの変数は$w, b$の二つのはず。)

$$ f(w, b) = \frac{1}{N} \sum_{(x,y) \in D} (y - (b + wx))^2. $$

このグラフにおける極値を求めることが、ロスを最小化する$w,b$を求められることになる。

2変数関数において傾きを考えることはそれぞれの変数について偏微分することになる。
偏微分した際の値は傾きを示す。

ここで、傾きが負→増加（右に移動）、傾きが正→減少(左に移動)と傾きの符号と逆向きに移動することと、移動する際にlearning rateが乗算されることを考えると、$w,b$は以下の式を用いて更新される。

$$ w' = w - \alpha \frac{\partial }{\partial w} f(w, b). $$
$$ b' = b - \alpha \frac{\partial }{\partial b} f(w, b). $$

この時、$w', b'$は$\frac{\partial }{\partial w} f(w, b), \frac{\partial }{\partial w} f(w, b)$の値が0になると変化しないことがわかる。
したがって、$\frac{\partial }{\partial w} f(w, b) = 0, \frac{\partial }{\partial w} f(w, b) = 0$になった時の$w', b'$の値が収束した値であり、ロスを最小化する$w,b$ということになる。


### さらに具体的に解くと、、

まずロス関数（MSE）の式を展開してみる。

$$ \frac{1}{N} \sum_{(x,y) \in D} (y - prediction(x))^2 $$
$$ = \frac{1}{N} \sum_{(x,y) \in D} (y - (b + wx))^2　$$
$$ = \frac{1}{N} \sum_{(x,y) \in D} (y^2 + b^2 + w^2x^2 - 2yb -2ywx  + 2bwx ). $$

最初にwで偏微分することを考える。

$$ \frac{\partial }{\partial w} \frac{1}{N} \sum_{(x,y) \in D} (y^2 + b^2 + w^2x^2 - 2yb -2ywx  + 2bwx ) = \frac{1}{N} \sum_{(x,y) \in D} (2wx^2 -2yx  + 2bx ).$$

したがって、$w'$は以下のように表せる。

$$w' = w - \alpha　\frac{1}{N} \sum_{(x,y) \in D} (2wx^2 - 2yx  + 2bx ).$$

同様に$b$で微分すると、

$$ \frac{\partial }{\partial b} \frac{1}{N} \sum_{(x,y) \in D} (y^2 + b^2 + w^2x^2 - 2yb -2ywx  + 2bwx ) = \frac{1}{N} \sum_{(x,y) \in D} (2b - 2y + 2wx ).$$

したがって、
$$b' = b - \alpha \frac{1}{N} \sum_{(x,y) \in D} (2b - 2y + 2wx ).$$

具体的には上記の式を用いて次の点を求め、それを繰り返すことでロスが最小になるような$w, b$の値を求める。