# ４章　ニューラルネットワークの学習

　「学習」とは、訓練データから最適な重みパラメータの値を自動で獲得することです。
 　<br>本章では、「損失関数」の値が最も小さくなる重みパラメータを探し出すことを目的とします。
 　<br>できるだけ小さな損失関数の値を探し出すための手法として、「勾配法」を用います。

## 4.1　データから学習する

　ニューラルネットワークの特徴は、データから自動で学習（重みのパラメータの値を自動決定）できる点にあります。
　<br>２章のパーセプトロンの例では、真理値表を見ながら手作業でパラメータを決定しました。これはパラメータが３個程度だから可能でした。ディープラーニングでは、数億にも及ぶパラメータを決定しなければならず、手作業で決めるのはもはや不可能でしょう。
　<br>※２章のパーセプトロンは線形分離可能な問題であれば、データから自動学習が可能（パーセプトロンの収束定理）。
  <br>しかし、非線形分離問題は自動で学習することができません。
  
## 4.1.1　データ駆動

　機械学習はデータが命です。データが無ければ何も始まりません。そのため、機械学習の中心には「データ」が存在します。このデータ駆動アプローチは、「人」を中心とするアプローチからの脱却とも言えます。
　<br>通常、何らかの問題を解決しようとする場合、人があれこれ考えて答えを出すことが一般的でしょう。一方、機械学習では、人の介入を極力避け、集められたデータから答え(パターン)を見つけようと試みます。
 
　具体的な例として、数字の「0」を認識するためのアルゴリズムを考えます。 数字の書き方は人によって様々なクセがありますが、人間にとっては簡単に認識できます。 しかし，なぜ手書きで書かれた「0」を「0」と脳が認識できているのか，その理由を明確に述べることはできないです(直感でわかるというようなもの)。 したがって，その認識ルールをプログラムにするのは難しい作業であることがわかります。

<img src = "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSEVRBSnDVKqIGDr4pWf_2mOTfbHRRe9FKjl5H9bzGtuf9Q4D0C">

そこで，大量のデータを活用した解決法を考えます。 一つ考えられるのは、画像から特徴量(SIFT、SURF、HOGなど)を抽出し、その特徴量のパターンを機械学習の識別器（SVNやKNN）で学習する方法です。 特徴量とは入力データ(入力画像)から抽出された本質的なデータ(重要なデータ)を指し，通常ベクトルで表されます。問題可決
<br>これは、ゼロからアルゴリズムを考えだす場合に比べると効率的に問題解決でき、「人」への負担も軽減されるでしょう。ただし、画像をベクトルに変換する際に使用した特徴量は、「人」が設計したものであることに注意が必要です。問題に応じて適した特徴量を使わなければなかなか良い結果が得られません。

　これまでの問題解決のアプローチとして２つ述べました。それらを図で示すと以下の上段のようになります。それに対して、ニューラルネット（ディープラーニング）によるアプローチは下図の下段のように人が介在しないブロックによって表されます。2つ目の特徴量と機械学習によるアプローチの例では、人が特徴量を設計しましたが、ニューラルネット（ディープラーニング）では、画像に含まれる特徴量までも「機械」が学習するのです。

<img src = "https://cdn-ak.f.st-hatena.com/images/fotolife/y/yusuke_ujitoko/20161230/20161230173310.png">

ニューラルネットワーク（ディープラーニング）の利点は、すべての問題を同じながれで解くことができる点です。例えば、数字「0」を認識する場合でも動物「犬」を認識する場合でも、人の「顔」を認識する場合でも、データをそのままの生データとして"end-to-end"で学習することができるのです。

※end-to-endとは
ディープラーニングは、「end-to-end machine learning」と呼ばれることがあります。これは生データ(入力)から目的の結果(出力)を得ることを意味します。

## 4.1.2　訓練データとテストデータ

　機械学習の問題では、モデルの汎化能力を正しく評価するため、訓練データ(教師データ)とテストデータの２つのデータに分けて、学習や実験(テスト)を行うのが一般的です。具体的には、訓練データだけで学習(最適パラメータの探索)を行い、テストデータを使ってモデルの実力を評価するのです。
　<br>汎化能力とは、まだ見ぬデータ(訓練データに含まれないデータ)に対しての対応力であり、この汎化能力を獲得することこそが、
　機械学習の最終目標なのです。ちなみに、あるデータセットだけに過度に対応した状態を過学習(Overfitting)と言います。
