# Lesson0 機械学習・深層学習のキソ

## 目次
* Section1 機械学習の目的と分類
* Section2 機械学習のプロセス
* Section3 機械学習モデルと深層学習
* Section4 MLP (深層学習) の特徴
* Section5 ライブラリ
* Section6 MLPにおける教師あり学習
  * 6.1 学習の各ステップ
  * 6.2 データセットと学習

※ Lesson0は演習がなく、基礎概念の解説のみです。

## Section1 機械学習の目的と分類

**機械学習 (machine learning)**は、人工知能研究の1分野として「人間の学習能力や認知・判別能力を計算機上で再現する」ことを目的としています。

より直接的には、機械学習では**データに潜む構造・パターンを捉える**ことが大きな目標となります。

この大目標の下、データの扱い方によって機械学習は次の3つに分類されます。

<ol>
    <li><strong>教師あり学習 (supervised learning)</strong>
    <ol>データは入力と出力からなり、中に潜む入出力関係をモデル化して捉えることで、新しい入力に対して出力を予測することができます。</ol>
    <ol>出力が離散値なら分類、連続値なら回帰と区別することもあります。</ol>
    </li>
    <li><strong>教師なし学習 (unsupervised learning)</strong>
    <ol>データには入出力の区別はなく、データ自身の生成構造や分布をモデル化して捉えることで、データの性質を知る上での参考となります。</ol>
    </li>
    <li><strong>強化学習 (reinforcement learning)</strong>
    <ol>データは状態・行動・報酬からなり、これらの対応関係をモデル化して捉えることで、報酬を最大化するような行動を特定できます。</ol>
    </li>
</ol>

![learning](figures/learning.png)

## Section2 機械学習のプロセス

機械学習を実際に行う際のプロセスを大枠でとらえると、

<ol>
    <li><strong>使用するモデルを仮定（モデル構築、モデルパラメータの設定）</strong>
    <ol>パターンを捉えるための"型"がモデルです。よってモデルの良し悪し（データの持つ構造に対して適切か）が結果に大きく影響します。</ol>
    </li>
    <li><strong>モデルがパターンを見つけられるように学習させる（学習）</strong>
    <ol>モデルにデータを流し込み、パターンを抽出します。</ol>
    </li>
    <li><strong>モデルの性能評価や利用</strong>
    <ol>様々なモデルから最も"良い"モデルを選択したいので、性能評価を行います。またモデルを利用して予測や次元削減などを行います。</ol>
    </li>
</ol>

というステップによって行うことになります。

<img src="figures/flow.png" width=50%>

## Section3 機械学習モデルと深層学習

機械学習で用いるモデルについては様々な選択肢があります。

データの集合を扱うため、統計学の知見を活かした統計モデルも頻繁に用いられてきました。

といっても、統計学的な発想だけではなく、人間の脳の構造に着目したモデルといった神経生理学的な発想によるモデルも存在しています。

その代表例が、**多層パーセプトロン(Multi Layer Perceptron; MLP)**です。

MLPでは下図のような**形式ニューロン (formal neuron)**と呼ばれる、神経細胞の働きを模したモデルが最小単位となっています。

<img src="figures/formal_neuron.png" width=30%>

この形式ニューロンを1ユニットとして、層状に積み重ねることで神経細胞群の働きを模したモデルがMLPです。

（一般に1つの神経細胞は、複数の神経細胞から信号を受け取り、それらを総合して自ら信号を他の神経細胞に送出します）

2層のMLPのモデルを表したものが下図です。（一般に入力層はカウントしません）

![MultiLayerPerceptron](http://deeplearning.net/tutorial/_images/mlp.png "MLP")

出典:http://deeplearning.net/tutorial/mlp.html

**深層学習 (deep leaning)**とは、この隠れ層（中間層）を複数に増やし、全体として3層以上の多層にしたMLPモデルを用いた機械学習のことを指しています。

## Section4 MLP (深層学習) の特徴

MLPの最大の特徴は**モデル構築の自由度**です。

機械学習の性能は、学習を行うモデルにどんなモデルを使用するかで大枠が決まってしまいます。

そもそもモデルが貧弱で調整できる部分が少なければ、広範なパターンのデータにうまく適合できないのです。

MLPでは、層の数、層の中のパーセプトロンの数（ユニット数）、また各パーセプトロンの繋がり方や出力の仕方の極めて多岐にわたる調整が可能です。

深層学習が多様な分野で適用されているのは、このMLPの自由度の高さとそれによる多様なパターンに適合する性能による部分が大きいのです。

## Section5 ライブラリ

しかし、その自由度ゆえに最適なモデル構築のためにはいろんなモデルで何度も試行錯誤する必要があります。

この試行錯誤を簡単にするため、様々な深層学習用のライブラリ（API群）が提供されています。

例えば、TensorFlow、PyTorch、Chainer、Caffeといったものが代表的ですが、そのそれぞれに特徴があります。

この講座では

* モデル構築、学習、評価・利用の簡単さ
* コミュニティの大きさ
* メンテナンス状況

といった観点から**TensorFlow**を用いて深層学習の様々なモデルを見ていきます。

特に本講座では、TensorFlowの中でも'tensorflow.keras'モジュールを利用します。

これは元々TensorFlowとは独立して開発されていた**Keras**というライブラリが、TensorFlowに統合されたものです。

Kerasは使いやすさを重視したライブラリとなっており、深層学習にこれから入門する方々にとって最適な選択肢の1つといえるでしょう。

なお、本文中では'tensorflow.keras'モジュールのうち、'tensorflow'の部分を省略して'keras.datasets'などと表記している部分がありますが、

実行コードでは'tensorflow.keras.datasets'などと'tensorflow.keras'モジュールを利用しているので、注意してください。

## Section6 MLPにおける教師あり学習

実際にKerasのコードを見る前に、題材とする「MLPの教師あり学習」についてステップ毎にざっと触れておきます。

全体の流れとしては、1.1.2の通り次のようになります。

<ul>
    <li><strong>①モデル構築（どんな層をどこに配置するかを決定）</strong>
    </li>
    <li><strong>②学習</strong>
    </li>
    <li><strong>③性能評価や予測</strong>
    </li>
</ul>

### 6.1 学習の各ステップ

#### ① モデル構築

モデル構築は文字通り、モデルの詳細設定を決めることで、MLPの場合は全体の層数や各層の機能・規模を決めることが対応します。

もちろん様々なモデルが考えられるので、いろんなモデルを構築してトライアンドエラーを繰り返すことになります。

#### ② 学習

学習では「モデルの持つ構造を捉えたい」わけですが、具体的な計算がこの表現では全く分からないと思います。

言い換えると、教師あり学習における学習とは、**用意した入出力データを用いて、モデルが同じデータを再現するように**訓練することです。

---

つまり、学習させたいデータとして、

(入力, 出力) = (1.0, 2.0), (1.2, 3.0), ...

というデータがあったとした時、訓練前のモデルに入力データだけ与えてやると

(入力, 出力) = (1.0, 100.0), (1.2, 50.0), ...

などとでたらめな値を出力しますが、データの入出力セットで訓練することで、入力データのみ与えても

(入力, 出力) = (1.0, 2.0), (1.2, 3.0), ...

と出力されるようにしたいということです。

---

このため、

<ol><strong>訓練 = 「同じ入力に対する出力データとモデルの出力の"ズレ度合い"を下げる」</strong></ol>

ということです。

このズレ度合いを評価する関数のことを**損失関数(loss function)**と呼び、その損失関数の最小化を行うことをモデルの学習や訓練と呼んでいるわけです。

MLPでは高い自由度のために損失関数が複雑であり、その最小化問題は解析的に解けないので、反復的な最適化を行うことになります。

この**最適化手法 (optimization method)**の選択は、損失関数最小化がどれだけうまくいくかを左右し、モデルの学習時間や性能にも大きな影響を与えます。

なお、データセット全体を使って1回最適化を行うという単位を**エポック (epoch)**と呼びます。

最適化計算を何エポックか回し、損失関数の最小化を行うのが学習ということです。

#### ③ 性能評価・予測

モデルの性能評価は良いモデルを選択する上でも重要ですし、学習がうまくいっているかを見るうえでも重要です。

まず損失関数の値そのものが1つの評価指標なります。

もし十分なエポック数の学習を行っても損失関数がほとんど小さくならないならば、モデルが単純すぎるか、学習方法に問題があるはずです。

ただ、損失関数値が仮に小さくなったとしても、それだけではよいモデルとは言えません。

というのも、学習に使用したデータに対する当てはまりしか評価できていないためです。

新しいデータに対してもよい予測を与えるかをしっかり評価しなければいけません。

この学習データ以外の未知のデータに対する予測力を**汎化性能 (generalization performance)**と言います。

つまり、汎化性能が高いか否かがモデルの良し悪しを決めるということであり、**機械学習において最重要視すべき観点**です。

このため、学習用のデータセットとは別に**テスト用（検証用）データセット**をあらかじめ用意しておき、

学習後にテスト用（検証用）データセットに対する予測精度を評価することが一般に行われます。

（厳密には、テスト用は評価のみを行う場合を、検証用(validation)データセットは評価をモデル選択（ハイパーパラメータの調整等）に生かす場合を指します。検証用とテスト用を別途用意し、検証用の評価でモデルを選択したのち、テスト用の評価を計測します。）

この予測精度の評価についても注意を払う必要があります。例えば、入力を2種類（A、B）に分類するタスクを考えてみましょう。

一番真っ先に思いつく予測精度の指標は**正解率 (accuracy)**、つまり（正しく分類できたデータ数）/（全データ数）だと思います。

しかし、この最もストレートな方法は、モデルの評価としてふさわしくない場合があります。

例えば常にデータをAに分類するモデルを考えてみましょう。これはデータに基づく判断をしておらず、到底良いモデルとはいいがたいわけです。

ところが、もし評価にあたって入力したデータのほとんどがAを正解ラベルとするようなデータであった場合、正解率は高くなってしまうのです。

つまり、データに偏りがある場合には正解率はあまり当てになりません。

加えて、そもそも正解率を評価することがふさわしくない場合もあります。

例えば、医療の疾病予測であれば、間違って陰性だと判断する**偽陰性率 (false-negative rate)**が低いことを重視するでしょう。

こうした、予測精度についての考えを整理するツールとして以下の**混同行列 (confusion matrix)**を紹介しましょう。


||正解ラベルが陽性|正解ラベルが陰性|
|:-----------:|:------------:|:------------:|
|予測が陽性|$TP$ (True Positive)|$FP$ (False Positive)|
|予測が陰性|$FN$ (False Negative)|$TN$ (True Negative)|

2値分類の場合に、このように正解ラベルと予測に関してデータを振り分けると、各指標が次のように表せます。
* 偽陽性率＝$\frac{FP}{FP+TN}$、真陽性率＝$\frac{TP}{TP+FN}$
* 偽陰性率＝$\frac{FN}{TP+FN}$、真陰性率＝$\frac{TN}{FP+TN}$
* **正解率 (accuracy)**＝$\frac{TP+TN}{TP+FN+FP+TN}$
* **適合率 (precision)**＝$\frac{TP}{TP+FP}$
* **再現率 (recall)**＝$\frac{TP}{TP+FN}$
* **F-値 (F-measure)**＝$\frac{2}{1/\mathrm{precision}+1/\mathrm{recall}}$：適合率と再現率の調和平均

このように正解ラベルも考慮してデータそのものの特性も含めて評価指標を表現することで、よりはっきりと各指標の意味の把握が可能になります。

### 6.2 データセットと学習

ここまで学習の一連の流れについて解説しましたが、最後に学習におけるデータセットの使い方について説明したいと思います。

学習方法はデータセットの使い方によって大きく次の2つに分類できます。

<ul>
    <li><strong>バッチ学習（一括学習、batch learning）</strong>
    <ul>データセット全体を一度に全て使用してパラメータを決定</ul>
    </li>
    <li><strong>オンライン学習（逐次学習、online learning）</strong>
    <ul>データセット全体を持っているが、学習を1データ毎に繰り返す</ul>
    <ul>（or データが1つずつ時系列として与えられるので、そのたびに学習を行い、パラメータを更新（ストリーム学習））</ul>
    </li>
</ul>

オンライン学習とバッチ学習を比較すると、次のような特徴があります。

<ul>
    <li>オンライン学習では1度の学習に使用するデータが1つなので、省メモリ</li>
    <li>バッチ学習ではスカラー計算ではなくベクトル・行列計算を行うので、SIMDやGPU等により高速化されやすい
    </li>
</ul>

これらの特徴は互いにトレードオフの関係となっています。

そこで、これらのいいとこどりをしようと考えられたのが、**ミニバッチ (mini-batch)**です。

データセットを少数のデータ集合、つまりミニバッチに分割し、このミニバッチごとに学習を行うということです。

ミニバッチの利用により、使用メモリ量を抑えつつ、高速なベクトル・行列計算能力を利用することができます。

そのため、MLPではミニバッチを利用した学習を行うことが標準的ですし、本講義でもミニバッチを利用した学習方法を採用しています。

ここまでが機械学習と深層学習の基礎です。Lesson1からはいよいよKerasを使って深層学習を実装していきましょう。