# 機械学習ざっくりまとめ

## 機械学習とは
機械学習は入力データから反復的に学習を行うことによって、パターンを学習し、新しいデータに対しても答えを得ることができるようにするもの。

- 回帰学習：機械学習の問題はデータから数値を予測する
- 分類問題：データがどのクラスに属するかを分類する

の２つに大別できる。
ある問題に対する適切なパラメータを学習していくため、学習するためのデータさえ用意できれば基本的なアルゴリズムを変更することなく、様々な問題を解決していくことができる。

## 機械学習の手順

機械学習では、まず学習モデルの構築を行う。
学習モデルは多くの数式を含むモデルである。
数式にはパラメータが含まれており、それらのパラメータを決定する「学習」を行った後、学習後のモデルを使って新しい問題を解く「推論」を行う。

「学習」

![画像がありません](./image/train.png)

「推論」

![画像がありません](./image/inference.png)

## パラメータの学習

機械学習の「学習」とは学習モデル内のパラメータを入力データから決定していくことを指す。問題に対して全てのパラメータを適切に設定することは、人間にはほぼ不可能であるため、コンピュータに学習してもらう。

### 損失関数と勾配法

**損失関数**は、学習モデルの性能の悪さを評価するための関数。
損失関数の結果が0に近いほど、学習モデルは適切な学習ができているということになる。
そのため、学習では損失関数の結果が小さくなるようにパラメータを変化させていく。

パラメータを変化させるためには**勾配法**という方法を使う。
勾配法は損失関数の勾配（微分）が小さくなるようにパラメータを徐々に更新していく。<br>
→*微分は関数の変化率なので、微分が0の場所は関数の最小値である可能性があるから。<br>
→*微分はパラメータを微小変化させた時の関数の変化量*

この時、微分値に対してどの程度パラメータを更新するかという、**学習率**というハイパーパラメータを与える。<br>
学習率は大きくても小さくても適切な学習が実行されない。

求めるための方法としては、実際にパラメータを微小変化させて結果の差分を計算する数値微分がある。<br>
しかし、より効率的で高速な方法として**誤差逆伝播法**（バックプロパゲーション）という方法を使うのが一般的である。

### 誤差逆伝播法

微分はパラメータを変化させた時、最終結果がどの程度変化するかという影響度だと考えることができる。<br>
しかし、機械学習のモデルでは数式同士が複雑に影響し合うため、微分を求めることが困難である。

そこで、数式を分解し、その最小単位ごとに入力が出力にどれくらい影響を及ぼすかを計算可能な局所的な微分式を求めておく。<br>
それを、出力側から逆に遡っていくことで全体の微分を求めることができる。
出力から入力まで逆方向に計算を辿っていくので、逆伝播という。

![画像がありません](./image/backprop.png)

図の黒字が順方向の計算であり、赤字が逆方向の計算（＝各項の影響度）。<br>
例えば、100の項が1増えて101になった場合、最終結果は604になるため、100の項の影響度は4になる。

## 学習モデル
### パーセプトロン

パーセプトロンは入力とパラメータの積和が閾値以下であれば0、閾値より上であれば1を出力する単純なモデルである。<br>
多くの場合、閾値θをバイアス-bと置き換え、計算結果が0以下か、0より上かで出力を変化させる。

![画像がありません](./image/node1.png)

パーセプトロンが一つだけでは単純なモデルしか表現できないため、複雑なモデルを表現するためにはパーセプトロンを複数層重ねる。

![画像がありません](./image/node2.png)

### ニューラルネットワーク

ニューラルネットワーク（以下、NN）の構造自体は、パーセプトロンの非常に似ている。NNとパーセプトロンの一番の違いは**活性化関数**である。活性化関数hは入力信号とパラメータの積和の結果aを次の入力に変換する関数のこと。
![画像がありません](./image/ActivationFunction.png)

パーセプトロンでは、積和の結果が0以上の場合に１、それ以外の場合に０だったので、活性化関数に**ステップ関数**を用いている事になる。<br>
NNでは、**シグモイド関数**や**ReLU関数**といった微分可能な関数を使うことで、より高度な学習が可能となる。<br>

**出力層の活性化関数だけはソフトマックス関数**など、<u>中間層とは異なる関数を使う。</u><br>
ソフトマックス関数は、各出力結果を百分率に直すような関数。分類問題においては、出力層の各ノードが入力が属するクラスに対応しているため、ソフトマックス関数の各結果はそのクラスに属している確率を表す。<br>

しかし、分類問題の場合は一番確率の高いクラスだけ分かれば良いという場合が多いので、ソフトマックス関数を使わず出力層の結果で一番大きなクラスを取り出すという処理を行う場合もある。


「活性化関数」<br>
　学習のタイプが<u>分類</u>ならば、**ソフトマックス関数**を用いる。<br>
 <u>回帰</u>ならば、**恒等写像**を用いる。
 
 「誤差関数」<br>
 <u>分類</u>ならば、**交差エントロピー**を用い、<u>回帰</u>ならば**二乗誤差**を用いる。


### 畳み込みニューラルネットワーク

NNでは、隣接する層の入力が全て結合する「全結合」(aを求める処理）と、その結果を次の層の入力に変換する「活性化」の、２種類の層が重なり、最後に「ソフトマックス」関数を使って最終的な出力を得る。

![画像がありません](./image/cnn1.png)

畳み込みニューラルネットワークでは、「畳み込み」層と「プーリング」層が加わる。

![画像がありません](./image/cnn2.png)